《线性代数的本质》 - 3blue1brown
高中数学A版选修4-2 矩阵与变换
《线性代数及其应用》(第五版)
《高等代数简明教程》- 蓝以中

向量空间

In the beginning Grant created the space. And Grant said, Let there be vector: and there was vector.

向量及其性质

三维几何空间中的一个有向线段称为向量(vector)。本文统一用 a,b,c,k,λa,b,c,k,\lambda 表示标量,小写黑体字母 u,v,w,a,b,x\mathbf u,\mathbf v,\mathbf w,\mathbf a,\mathbf b,\mathbf x 表示向量。

向量通常定义两种运算:加法和数乘。加法遵循三角形法则(平行四边形法则),数乘被称为缩放(scaling)。运算法则如下图

性质:根据向量的几何性质可证明向量的加法和数乘满足以下八条性质:

  1. 加法交换律:v+w=w+v\mathbf v+\mathbf w=\mathbf w+\mathbf v
  2. 加法结合律:u+(v+w)=(u+v)+w\mathbf u+(\mathbf v+\mathbf w)=(\mathbf u+\mathbf v)+\mathbf w
  3. 加法单位元:0V, 0+v=v\exists 0\in V,\ 0+\mathbf v=\mathbf v
  4. 加法逆元:(v)V, v+(v)=0\exists (-\mathbf v)\in V,\ \mathbf v+(-\mathbf v)=0
  5. 数乘结合律:a(bv)=(ab)va(b\mathbf v)=(ab)\mathbf v
  6. 数乘分配律:a(v+w)=av+awa(\mathbf v+\mathbf w)=a\mathbf v+a\mathbf w
  7. 数乘分配律:(a+b)v=av+bv(a+b)\mathbf v=a\mathbf v+b\mathbf v
  8. 数乘单位元:1F, 1v=v\exists 1\in\mathbb F,\ 1\mathbf v=\mathbf v

向量空间是三维几何空间向高维空间的推广。线性代数中,每个向量都以坐标原点为起点,那么任何一个向量就由其终点唯一确定。从而,向量和空间中的点一一对应。因此,空间也可以看成由所有向量组成的集合,并且集合中的元素可以进行加法和数乘运算。于是,便有了向量空间的抽象定义。

向量空间: 设 VVnn 维向量的非空集合F\mathbb F 是一个数域,若 VV 对于向量的加法和数乘两种运算封闭,那么称集合 VV 为数域 FF 上的向量空间(vector space)。所谓封闭是指

  1. v,wV, v+wV\forall\mathbf v,\mathbf w\in V,\ \mathbf v+\mathbf w\in V
  2. vV,cF, cvV\forall\mathbf v\in V, c\in F,\ c\mathbf v\in V

线性代数中的数域通常取全体实数,即 F=R\mathbb F=\R

例如:nn维向量的全体生成实数域上的向量空间

Rn={x=(x1,x2,,xn)x1,x2,,xnR}\R^n=\{\mathbf x=(x_1,x_2,\cdots,x_n)\mid x_1,x_2,\cdots,x_n\in\R\}

子空间:设 UU 是向量空间 VV 的一个非空子集,如果UU中的线性运算封闭,则 UU 也是向量空间,称为 VV子空间

基与维数

仿照解析几何的基本方法,建立一个坐标系,实现空间内的点与有序实数对一一对应,从而空间内的向量与有序实数对也一一对应,这样就可以用代数方法来研究向量的性质。

为方便建立空间的坐标系,先定义几个概念。

定义:取向量空间 VV 内一个向量组 a1,a2,,ar\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r

  1. 向量 x1a1+x2a2++xrarx_1\mathbf a_1+x_2\mathbf a_2+\cdots+x_r\mathbf a_r 称为向量组的一个线性组合(linear combination)

  2. 向量组的所有线性组合构成的向量集称为由该向量组张成的空间,记作

    span{a1,,an}={x1a1++xnanx1,,xnR}\text{span}\{\mathbf a_1,\cdots,\mathbf a_n\}=\{x_1\mathbf a_1+\cdots+x_n\mathbf a_n\mid x_1,\cdots,x_n\in\R\}

    如下图,若 u,vR3\mathbf u,\mathbf v\in\R^3 不共线,则 span{u,v}\text{span}\{\mathbf u,\mathbf v\}R3\R^3中包含 u,v\mathbf u,\mathbf v 和原点的平面,图示

  3. 当且仅当系数 x1=x2==xr=0x_1=x_2=\cdots=x_r=0 时,线性组合为零

    x1a1+x2a2++xrar=0x_1\mathbf a_1+x_2\mathbf a_2+\cdots+x_r\mathbf a_r=0

    则称向量组线性无关(linearly independence)。反之,如果存在不全为零的数使上式成立,则称向量组线性相关(linearly dependence)。

定理:若向量 v\mathbf v 可由线性无关的向量组a1,a2,,ar\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r 线性表示,则表示系数是唯一的。

证明:设向量v\mathbf v 有两组表示系数

b=k1a1+k2a2++krarb=l1a1+l2a2++lrar\mathbf b=k_1\mathbf a_1+k_2\mathbf a_2+\cdots+k_r\mathbf a_r \\ \mathbf b=l_1\mathbf a_1+l_2\mathbf a_2+\cdots+l_r\mathbf a_r

则有

(k1l1)a1+(k1l2)a2++(k1lr)ar=0(k_1-l_1)\mathbf a_1+(k_1-l_2)\mathbf a_2+\cdots+(k_1-l_r)\mathbf a_r=0

因为 a1,a2,,ar\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r 线性无关,故必有

k1l1=k1l1==k1l1=0k_1-l_1=k_1-l_1=\cdots=k_1-l_1=0

即表示系数是唯一的。

接下来,我们自然想用一组线性无关的向量来张成整个向量空间。

向量空间的基:张成向量空间VV的一个线性无关的向量集合称为该空间的一组(basis)。基向量组所含向量的个数,称为向量空间 VV维数(dimension),记为 dimV\dim V

可以证明,向量空间的任意一组基的向量个数是相等的。
单由零向量组成的向量空间{0}\{0\}称为零空间。零空间的维数定义为零。

基定理nn 维向量空间的任意 nn 个线性无关的向量构成空间的一组基。

向量的坐标运算

向量空间选定了基向量后,空间中全体向量的集合与全体有序实数组的集合之间就建立了一一 对应的关系。

坐标:设向量组 a1,a2,,an\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n 是线性空间 VV 的一组基,则空间内任一向量 vV\mathbf v\in V 都可表示为基向量的唯一线性组合

v=x1a1+x2a2++xnan\mathbf v=x_1\mathbf a_1+x_2\mathbf a_2+\cdots+x_n\mathbf a_n

有序数组 x1,x2,,xnx_1,x_2,\cdots,x_n 称为向量v\mathbf v 在基 a1,a2,,an\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n 下的坐标,一般记作

[x1x2xn]or(x1,x2,,xn)\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}\quad \text{or}\quad (x_1,x_2,\cdots,x_n)

类似于三维几何空间,由nn个有序数构成的向量称为nn维向量。

例:设 v1=[362],v2=[101],x=[3127]\mathbf v_1=\begin{bmatrix}3\\6\\2\end{bmatrix},\mathbf v_2=\begin{bmatrix}-1\\0\\1\end{bmatrix},\mathbf x=\begin{bmatrix}3\\12\\7\end{bmatrix} 。判断 x\mathbf x 是否在 H=span {v1,v2}H=\text{span }\{\mathbf v_1,\mathbf v_2\} 中,如果是,求 x\mathbf x 相对于基向量B={v1,v2}B=\{\mathbf v_1,\mathbf v_2\} 的坐标。

解:如果 x\mathbf xH=span {v1,v2}H=\text{span }\{\mathbf v_1,\mathbf v_2\} 中,则下列方程是有解的

c1[362]+c2[101]=[3127]c_1\begin{bmatrix}3\\6\\2\end{bmatrix}+c_2\begin{bmatrix}-1\\0\\1\end{bmatrix}=\begin{bmatrix}3\\12\\7\end{bmatrix}

如果数 c1,c2c_1,c_2存在,则它们是 x\mathbf x 相对于BB 的坐标。由初等行变换得

[3136012217][102013000]\begin{bmatrix}\begin{array}{cc:c} 3&-1&3\\6&0&12\\2&1&7 \end{array}\end{bmatrix}\to \begin{bmatrix}\begin{array}{cc:c} 1&0&2\\0&1&3\\0&0&0 \end{array}\end{bmatrix}

于是, x\mathbf x 相对于v1,v2\mathbf v_1,\mathbf v_2 的坐标

vB=[32]\mathbf v_B=\begin{bmatrix}3\\2\end{bmatrix}

有时为了区分坐标的基向量,向量 v\mathbf v 在基 B={b1,b2,,bn}B=\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n\} 下的坐标,记作 vB\mathbf v_B

建立了坐标之后,VV中抽象的向量 v\mathbf vRn\R^n中具体的数组 (x1,x2,,xn)T(x_1,x_2,\cdots,x_n)^T 实现了一一对应,并且向量的线性运算也可以表示为坐标的线性运算。

v,wV\mathbf v,\mathbf w\in V,有

v=v1a1+v2a2++vnanw=w1a1+w2a2++wnan\mathbf v=v_1\mathbf a_1+v_2\mathbf a_2+\cdots+v_n\mathbf a_n\\ \mathbf w=w_1\mathbf a_1+w_2\mathbf a_2+\cdots+w_n\mathbf a_n

向量加法运算

v+w=(v1+w1)a1+(v2+w2)a2++(vn+wn)an\mathbf v+\mathbf w=(v_1+w_1)\mathbf a_1+(v_2+w_2)\mathbf a_2+\cdots+(v_n+w_n)\mathbf a_n

即对应的坐标运算为

[v1v2vn]+[w1w2wn]=[v1+w1v2+w2vn+wn]\begin{bmatrix}v_1\\ v_2\\ \vdots \\ v_n\end{bmatrix}+ \begin{bmatrix}w_1\\ w_2\\ \vdots \\ w_n\end{bmatrix}= \begin{bmatrix}v_1+w_1\\ v_2+w_2\\ \vdots \\ v_n+w_n\end{bmatrix}

向量数乘运算

c v=(cv1) a1+(cv2) a2++(cvn) anc\mathbf v=(cv_1)\mathbf a_1+(cv_2)\mathbf a_2+\cdots+(cv_n)\mathbf a_n

即对应的坐标运算为

c[v1v2vn]=[cv1cv2cvn]c\begin{bmatrix}v_1\\ v_2\\ \vdots \\ v_n\end{bmatrix}= \begin{bmatrix}cv_1\\ cv_2\\ \vdots \\ cv_n\end{bmatrix}

向量的坐标取值依托于坐标系的基向量。选取的基向量不同,其所对应的坐标值就不同。当然,基向量自身的坐标总是:

e1=[100], e2=[010],, en=[001],\mathbf e_1=\begin{bmatrix}1\\0\\\vdots\\0\end{bmatrix},\quad \mathbf e_2=\begin{bmatrix}0\\1\\\vdots\\0\end{bmatrix},\quad \cdots,\quad \mathbf e_n=\begin{bmatrix}0\\0\\\vdots\\1\end{bmatrix},\quad

这种坐标形式通常称为标准向量组(或单位坐标向量组)。

总之,在nn维向量空间 VnV_n 中任取一组基,则 VnV_n 中的向量与 Rn\R^n 中的数组之间就有一一对应的关系,且这个对应关系保持线性组合(线性运算)的一一对应。接下来我们将默认使用标准坐标系:坐标原点为 OO,基向量组为 e1,e2,,en\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n后续将对向量实体和坐标不做区分

线性变换与矩阵

线性变换与二阶方阵

本节从二维平面出发学习线性代数。通常选用平面坐标系 OxyOxy ,基向量为 i, j\mathbf i,\ \mathbf j,平面内的任意向量都可以写成基向量的线性组合

 v=x i+y j\mathbf v=x\mathbf i+y\mathbf j

这样,平面内的点和有序实数对 (x,y)(x,y) 一一对应。借助平面坐标系,我们可以从代数的角度来研究几何变换。

变换与函数类似,函数把数映射到数,变换把点(向量)映射到点(向量)。

T: vT(v)T:\quad \mathbf v\mapsto T(\mathbf v)

例如,(1) 平面内任意一点 P(x,y)P(x,y) 绕原点OO 逆时针方向旋转 60°60\degree 角得到点 P(x,y)P'(x',y'),坐标变换公式为

{x=12x32yy=32x+12y\begin{cases} x'=\frac{1}{2}x-\frac{\sqrt 3}{2}y \\ y'=\frac{\sqrt 3}{2}x+\frac{1}{2}y \end{cases}

可写为向量形式

[xy]=x[12 32]+y[ 3212]\begin{bmatrix}x'\\y'\end{bmatrix}= x\begin{bmatrix}\frac{1}{2}\\\frac{\sqrt 3}{2}\end{bmatrix}+ y\begin{bmatrix}-\frac{\sqrt 3}{2}\\\frac{1}{2}\end{bmatrix}

(2) 平面内任意一点 P(x,y)P(x,y) 关于 yy 轴的对称点 P(x,y)P'(x',y')的表达式为

{x=xy=y\begin{cases} x'=-x \\ y'=y \end{cases}

可写为向量形式

[xy]=x[10]+y[01]\begin{bmatrix}x'\\y'\end{bmatrix}= x\begin{bmatrix}-1\\0\end{bmatrix}+ y\begin{bmatrix}0\\1\end{bmatrix}

事实上,在平面坐标系 OxyOxy 中,很多几何变换都具有如下坐标变换公式

{x=ax+byy=cx+dy\begin{cases} x'=ax+by \\ y'=cx+dy \end{cases}

向量形式为

[xy]=x[ac]+y[bd]\begin{bmatrix}x'\\y'\end{bmatrix}= x\begin{bmatrix}a\\c\end{bmatrix}+ y\begin{bmatrix}b\\d\end{bmatrix}

其中 (x,y)(x',y')为平面内任意一点 (x,y)(x,y) 变换后的点。我们把形如上式的几何变换叫做平面线性变换

容易证明,线性变换满足下列两条性质

(1) 可加性:T(v+w)=T(v)+T(w)T(\mathbf v+\mathbf w)=T(\mathbf v)+T(\mathbf w)
(2) 伸缩性:T(cv)=cL(v)T(c\mathbf v)=cL(\mathbf v)

事实上,这两条性质才是线性变换的严格定义。

为了进一步了解线性变换的本质,取任意向量 v=xi+yj\mathbf v=x\mathbf i+y\mathbf j ,在线性变换 TT 的作用下

T(v)=T(xi+yj)=xT(i)+yT(j)T(\mathbf v)=T(x\mathbf i+y\mathbf j)=xT(\mathbf i)+yT(\mathbf j)

可知,变换后的向量 T(v)T(\mathbf v) 由变换后的基向量以同样的系数完全确定。设变换后的基向量分别为

T(i)=ai+cj=[ac],T(j)=bi+dj=[bd]T(\mathbf i)=a\mathbf i+c\mathbf j=\begin{bmatrix}a\\c\end{bmatrix},\quad T(\mathbf j)=b\mathbf i+d\mathbf j=\begin{bmatrix}b\\d\end{bmatrix}

注意:本章线性变换中的坐标始终使用最初的 OxyOxy 坐标系。

于是,线性变换 T: v T( v)T:\mathbf v\mapsto T(\mathbf v) 对应的坐标运算为

[xy]=x[ac]+y[bd]\begin{bmatrix}x'\\y'\end{bmatrix}= x\begin{bmatrix}a\\c\end{bmatrix}+ y\begin{bmatrix}b\\d\end{bmatrix}

由于上述变换由变换后的基向量唯一确定,我们可以按顺序写为数表的形式

我们把这个数表称为二阶矩阵,一般用大写英文字母表示。变换后的向量则定义为矩阵与向量的乘积

[abcd][xy]=x[ac]+y[bd]=[ax+bycx+dy]\begin{bmatrix}a & b\\c & d\end{bmatrix}\begin{bmatrix}x\\y\end{bmatrix}= x\begin{bmatrix} a \\ c \end{bmatrix}+ y\begin{bmatrix} b \\ d \end{bmatrix}= \begin{bmatrix} ax+by \\ cx+dy \end{bmatrix}

可知,矩阵代表一个特定的线性变换,我们完全可以把矩阵的列看作变换后的基向量,矩阵向量乘法就是将线性变换作用于给定向量

Grant:矩阵最初的定义就来自线性变换。

至此,任何一个线性变换都可以写为矩阵与向量乘积的形式。反之,确定了坐标系后,任何一个矩阵都唯一确定了一个线性变换。矩阵和向量的乘积与线性变换实现了一一对应。

一般地,直线在线性变换后仍然保持直线

证明:如图 ll 为向量 w1,w2\mathbf w_1,\mathbf w_2 终点所确定的直线,v\mathbf v 为终点在直线 ll 上的任意向量。

v=w1+λ(w2w1)=(1λ)w1+λw2(λR)\mathbf v=\mathbf w_1+\lambda(\mathbf w_2-\mathbf w_1)=(1-\lambda)\mathbf w_1+\lambda \mathbf w_2 \quad (\lambda\in\R)

λ1+λ2=1\lambda_1+\lambda_2=1

v=λ1w1+λ2w2\mathbf v=\lambda_1 \mathbf w_1+\lambda_2 \mathbf w_2

这就是由向量 w1,w2\mathbf w_1,\mathbf w_2 的终点所确定的直线的向量形式。由线性变换的基本性质可知,直线 ll 在线性变换 AA 的作用下变成

v=A(λ1w1+λ2w2)=λ1Aw1+λ2Aw2\mathbf v'=A(\lambda_1 \mathbf w_1+\lambda_2 \mathbf w_2)=\lambda_1 A\mathbf w_1+\lambda_2 A\mathbf w_2

(1) 如果 Aw1Aw2A\mathbf w_1\neq A\mathbf w_2,那么 v\mathbf v' 表示由向量 Aw1,Aw2A\mathbf w_1,A\mathbf w_2 的终点确定的直线。此时矩阵 AA 对应的线性变换把直线变成直线;
(2) 如果 Aw1=Aw2A\mathbf w_1 = A\mathbf w_2,那么 λ1Aw1+λ2Aw2=Aw1\lambda_1 A\mathbf w_1+\lambda_2 A\mathbf w_2=A\mathbf w_1 。由于向量 Aw1A\mathbf w_1 的终点是一个确定的点,因而,矩阵 AA 所对应的线性变换把直线 ll 映射成了一个点 Aw1A\mathbf w_1

常见的线性变换

Grant:我们可以使用无限网格刻画二维空间所有点的变换。线性变换是操作空间的一种手段,它能够保持网格线平行且等距,并保持原点不动

我们已经知道,在线性变换的作用下,直线仍然保持直线(或一个点)。为了方便,我们只考虑在平面直角坐标系内,单位正方形区域的线性变换。

根据向量加法的平行四边形法则,单位正方形区域可用向量形式表示为

[xy]=xi+yj(0x,y1)\begin{bmatrix}x\\y\end{bmatrix}=x\mathbf i+y\mathbf j \quad(0\leqslant x,y\leqslant 1)

由线性变换基本性质知,变换后的区域为

A[xy]=x(Ai)+y(Aj)(0x,y1)A\begin{bmatrix}x\\y\end{bmatrix}=x(A\mathbf i)+y(A\mathbf j) \quad(0\leqslant x,y\leqslant 1)

表示以 Ai,AjA\mathbf i,A\mathbf j 为邻边的平行四边形区域。因此,我们只需考虑单位向量 i,j\mathbf i,\mathbf j 在线性变换作用下的结果,就能得到单位正方形区域在线性变换作用下所变成的图形。

恒等变换:把平面内任意一点 P(x,y)P(x,y) 变成它本身,记为 II 。对应的矩阵称为单位阵

[1001]\begin{bmatrix} 1 & 0\\ 0 & 1 \end{bmatrix}

旋转变换:(rotations)平面内任意一点 P(x,y)P(x,y) 绕原点OO按逆时针方向旋转 θ\theta 角,记为 RθR_{\theta} 。对应的矩阵为

[cosθsinθsinθcosθ]\begin{bmatrix} \cos\theta & -\sin\theta\\ \sin\theta & \cos\theta \end{bmatrix}

切变变换:(shears)平行于 xx 轴的切变变换对应的矩阵为

[1k01]\begin{bmatrix} 1 & k\\ 0 & 1 \end{bmatrix}

类似的,平行于 yy 轴的切变变换对应的矩阵为

[10k1]\begin{bmatrix} 1 & 0\\ k & 1 \end{bmatrix}

反射变换:(reflection)一般的我们把平面内任意一点 P(x,y)P(x,y) 关于直线 ll 对称的线性变换叫做关于直线 ll 的反射变换。

(1) 关于 yy 轴的反射变换对应的矩阵为

[1001]\begin{bmatrix} -1 & 0\\ 0 & 1 \end{bmatrix}

(2) 关于直线 y=xy=x 的反射变换对应的矩阵为

[0110]\begin{bmatrix} 0 & 1\\ 1 & 0 \end{bmatrix}

(3) 关于直线 y=kxy=kx 的反射变换对应的矩阵为

1k2+1[1k22k2kk21]\frac{1}{k^2+1}\begin{bmatrix} 1-k^2 & 2k\\ 2k & k^2-1 \end{bmatrix}

伸缩变换:(stretching)将每个点的横坐标变为原来的 k1k_1 倍,纵坐标变为原来的 k2k_2 倍,其中 k1,k20k_1,k_2\neq0 。对应的矩阵为

[k100k2]\begin{bmatrix} k_1 & 0\\ 0 & k_2 \end{bmatrix}

投影变换:(projection)平面内任意一点 P(x,y)P(x,y) 在直线 ll 的投影称为关于直线 ll 的投影变换。

(1) 关于 xx 轴的投影变换对应的矩阵为

[1000]\begin{bmatrix} 1 & 0\\ 0 & 0 \end{bmatrix}

(2) 关于 yy 轴的投影变换对应的矩阵为

[0001]\begin{bmatrix} 0 & 0\\ 0 & 1 \end{bmatrix}

(3) 关于直线 y=kxy=kx 的投影变换对应的矩阵为

1k2+1[1kkk2]\frac{1}{\sqrt{k^2+1}}\begin{bmatrix} 1 & k\\ k & k^2 \end{bmatrix}

平移变换:形如 (x,y)(x+h,y+k)(x,y)\mapsto (x+h,y+k) 的平移变换并不是线性变换,我们无法直接使用矩阵向量乘法。对此可以引入齐次坐标:平面内的每个点 (x,y)(x,y) 都可以对应于空间中的点 (x,y,1)(x,y,1) 。平移变换可以用齐次坐标写成变换 T:(x,y,1)(x+h,y+k,1)T:(x,y,1)\mapsto (x+h,y+k,1),对应的矩阵为

[10h01k001]\begin{bmatrix} 1 & 0 & h \\ 0 & 1 & k \\ 0 & 0 & 1 \end{bmatrix}

复合变换与矩阵乘法

平面内任意一向量,依次做旋转变换 Rθ1:[cosθ1sinθ1sinθ1cosθ1]R_{\theta_1}:\begin{bmatrix} \cos{\theta_1} & -\sin{\theta_1}\\ \sin{\theta_1} & \cos{\theta_1} \end{bmatrix}Rθ2:[cosθ2sinθ2sinθ2cosθ2]R_{\theta_2}:\begin{bmatrix} \cos{\theta_2} & -\sin{\theta_2}\\ \sin{\theta_2} & \cos{\theta_2} \end{bmatrix}

很显然最终作用的效果可以用一个变换 Rθ1+θ2R_{\theta_1+\theta_2} 来表示,对应的矩阵为

[cos(θ1+θ2)sin(θ1+θ2)sin(θ1+θ2)cos(θ1+θ2)]\begin{bmatrix} \cos{(\theta_1+\theta_2)} & -\sin{(\theta_1+\theta_2)}\\ \sin{(\theta_1+\theta_2)} & \cos{(\theta_1+\theta_2)} \end{bmatrix}

旋转变换 Rθ1+θ2R_{\theta_1+\theta_2}仍然是线性变换。

一般地,设矩阵 A=[a1b1c1d1],B=[a2b2c2d2]A=\begin{bmatrix}a_1 & b_1\\ c_1 & d_1\end{bmatrix},B=\begin{bmatrix}a_2 & b_2\\ c_2 & d_2\end{bmatrix},他们对应的线性变换分别为 ffgg

平面上任意一个向量 v=[xy]\mathbf v=\begin{bmatrix} x \\ y \end{bmatrix} 依次做变换 ggff ,其作用效果为

f(g(v))=A(Bv)f(g(\mathbf v))=A(B\mathbf v)

Grant:线性变换的本质主要在于追踪基向量变换后的位置。

接下来,我们追踪变换过程中基向量的位置。由矩阵向量乘法的定义知道,基向量 i,j\mathbf i,\mathbf j 经过矩阵 BB 变换后(第一次变换)的位置为

Bi=[a2c2],Bj=[b2d2]B\mathbf i=\begin{bmatrix}a_2\\c_2\end{bmatrix},\quad B\mathbf j=\begin{bmatrix}b_2\\d_2\end{bmatrix}

基向量 Bi,BjB\mathbf i,B\mathbf j 又经过矩阵 AA 变换后的最终位置为

i:[a1b1c1d1][a2c2]=a2[a1c1]+c2[b1d1]=[a1a2+b1c2c1a2+d1c2]j:[a1b1c1d1][b2d2]=b2[a1c1]+d2[b1d1]=[a1b2+b1d2c1b2+d1d2]\mathbf i':\begin{bmatrix}a_1 & b_1\\ c_1 & d_1\end{bmatrix} \begin{bmatrix}a_2\\ c_2\end{bmatrix}= a_2\begin{bmatrix}a_1\\ c_1\end{bmatrix}+ c_2\begin{bmatrix}b_1\\d_1\end{bmatrix}= \begin{bmatrix}a_1a_2+b_1c_2 \\ c_1a_2+d_1c_2\end{bmatrix} \\ \mathbf j':\begin{bmatrix}a_1 & b_1\\ c_1 & d_1\end{bmatrix} \begin{bmatrix}b_2\\ d_2\end{bmatrix}= b_2\begin{bmatrix}a_1\\ c_1\end{bmatrix}+ d_2\begin{bmatrix}b_1\\d_1\end{bmatrix}= \begin{bmatrix}a_1b_2+b_1d_2\\c_1b_2+d_1d_2\end{bmatrix}

从而,对任意向量 v=[xy]\mathbf v=\begin{bmatrix} x \\ y \end{bmatrix} 依次做变换 BBAA ,其总体作用效果为

A(Bv)=xi+yj=[a1a2+b1c2a1b2+b1d2c1a2+d1c2c1b2+d1d2][xy]A(B\mathbf v)=x\mathbf i'+y\mathbf j'=\begin{bmatrix}a_1a_2+b_1c_2 & a_1b_2+b_1d_2\\ c_1a_2+d_1c_2 & c_1b_2+d_1d_2\end{bmatrix} \begin{bmatrix} x \\ y \end{bmatrix}

这也是一个线性变换,我们称为复合变换(composite transformation),记为 fgf\circ g

在此,我们定义复合变换 fgf\circ g 为矩阵A,BA,B 的乘积,记为

AB=[a1b1c1d1][a2b2c2d2]=[a1a2+b1c2a1b2+b1d2c1a2+d1c2c1b2+d1d2]AB=\begin{bmatrix}a_1 & b_1\\ c_1 & d_1\end{bmatrix} \begin{bmatrix}a_2 & b_2\\ c_2 & d_2\end{bmatrix}= \begin{bmatrix}a_1a_2+b_1c_2 & a_1b_2+b_1d_2\\ c_1a_2+d_1c_2 & c_1b_2+d_1d_2\end{bmatrix}

注意:矩阵乘积的次序与复合变换相同,从右向左相继作用。

由定义易知,对任意向量 v\mathbf v

(AB)v=A(Bv)(AB)\mathbf v=A(B\mathbf v)

矩阵的定义

接下来,我们将矩阵的概念推广到高维空间。高维线性空间中的变换与二维空间中的变换类似。

矩阵: m×nm\times n 个数按一定次序排成的数表称为矩阵

[a11a12a1na21a22a2nam1am2amn]\begin{bmatrix} a_{11}&a_{12}&\cdots&a_{1n} \\ a_{21}&a_{22}&\cdots&a_{2n} \\ \vdots&\vdots&\ddots&\vdots \\ a_{m1}&a_{m2}&\cdots&a_{mn} \\ \end{bmatrix}

常用大写英文字母表示矩阵,如AAAm×nA_{m× n}。矩阵中的每个数 aija_{ij} 称为它的元素(entry),有时矩阵也记作 (aij)(a_{ij})(aij)m×n(a_{ij})_{m× n} 。根据矩阵的元素所属的数域,可以将矩阵分为复矩阵和实矩阵。

几种特殊的矩阵

  1. 元素全为零的矩阵称为零矩阵(zero matrix),记作OO
  2. 只有一行的矩阵称为行矩阵(row matrix)或行向量;只有一列的矩阵称为列矩阵(column matrix)或列向量。行(列)矩阵通常用小写黑体字母表示,如 a,x\mathbf a,\mathbf x
  3. 当行数和列数相等时的矩阵 An×nA_{n\times n} 称为**nn 阶方阵**(n-order square matrix)。
  4. 不在主对角线上的元素全为零的方阵称为对角阵(diagonal matrix),记作 diag(a1,a2,,an)\mathrm{diag}(a_1,a_2,\cdots,a_n)
  5. 主对角线上的元素全为1的对角阵,称为单位阵(identity matrix)。记nn 阶单位阵记作EnE_nInI_n

矩阵的线性运算:因为矩阵 Am×nA_{m\times n} 的各列是 mm维向量,写作 A=[a1a2an]A=\begin{bmatrix}\mathbf a_1&\mathbf a_2&\cdots&\mathbf a_n\end{bmatrix} ,因此矩阵可看作向量集,向量的线性运算自然推广到矩阵。

设矩阵A=(aij)A=(a_{ij})B=(bij)B=(b_{ij})

  1. 他们的对应元素完全相同 aij=bija_{ij}=b_{ij},则称矩阵 AABB 相等,记作A=BA=B
  2. 矩阵的加法定义为 A+B=(aij+bij)A+B=(a_{ij}+b_{ij})
  3. 矩阵的数乘定义为kA=(kaij)kA=(ka_{ij})

性质:线性运算满足以下性质

  1. 加法交换律:A+B=B+AA+B=B+A
  2. 加法结合律:A+(B+C)=(A+B)+CA+(B+C)=(A+B)+C
  3. 零矩阵:O+A=AO+A=A
  4. 负矩阵:A+(A)=OA+(-A)=O
  5. 数乘结合律:k(lA)=(kl)Ak(lA)=(kl)A
  6. 数乘分配律:k(A+B)=kA+kBk(A+B)=kA+kB
  7. 数乘分配律:(k+l)A=kA+lA(k+l)A=kA+lA
  8. 数乘单位元:1A=A1A=A

矩阵向量的乘法: 矩阵与向量的乘法来源于线性变换,它有着直观的、深刻的几何背景。设m×nm\times n 维矩阵A=(aij)A=(a_{ij})nn维向量 v=(x1,x2,,xn)T\mathbf v=(x_1,x_2,\cdots,x_n)^T 的乘积

[a11a12a1na21a22a2nam1am2amn][x1x2xn]=x1[a11a21am1]++xn[a1na2namn]=[j=1na1jxjj=1na2jxjj=1namjxj]\begin{bmatrix} a_{11}&a_{12}&\cdots&a_{1n} \\ a_{21}&a_{22}&\cdots&a_{2n} \\ \vdots&\vdots&\ddots&\vdots \\ a_{m1}&a_{m2}&\cdots&a_{mn} \\ \end{bmatrix} \begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}= x_1\begin{bmatrix}a_{11}\\a_{21}\\\vdots\\a_{m1}\end{bmatrix}+\cdots+ x_n\begin{bmatrix}a_{1n}\\a_{2n}\\\vdots\\a_{mn}\end{bmatrix}= \begin{bmatrix}\sum_{j=1}^na_{1j}x_j\\\sum_{j=1}^na_{2j}x_j\\\vdots\\\sum_{j=1}^na_{mj}x_j\end{bmatrix}

一般地,m×nm\times n 维的矩阵,表示将 nn 维空间中的向量映射到 mm 维空间中。矩阵的第jj列表示第 jj 个基向量变换后的坐标。

矩阵乘法:矩阵与矩阵乘法来源于复合线性变换。设矩阵A=(aij)m×nA=(a_{ij})_{m\times n}B=(bij)n×pB=(b_{ij})_{n\times p},向量 v=(x1,x2,,xp)\mathbf v=(x_1,x_2,\cdots,x_p) ,用 b1,b2,,bp\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_p表示矩阵 BB 的各列,则

Bv=x1b1+x2b2++xpbpB\mathbf v=x_1\mathbf b_1+x_2\mathbf b_2+\cdots+x_p\mathbf b_p

由线性变换的性质

A(Bv)=A(x1b1)+A(x2b2)++A(xpbp)=x1Ab1+x2Ab2++xpAbp=[Ab1Ab2Abp]v\begin{aligned} A(B\mathbf v)&=A(x_1\mathbf b_1)+A(x_2\mathbf b_2)+\cdots+A(x_p\mathbf b_p) \\ &=x_1A\mathbf b_1+x_2A\mathbf b_2+\cdots+x_pA\mathbf b_p \\ &=\begin{bmatrix}A\mathbf b_1&A\mathbf b_2&\cdots&A\mathbf b_p\end{bmatrix}\mathbf v \end{aligned}

于是可定义矩阵的乘积 ABABm×pm\times p 矩阵

AB=A[b1b2bp]=[Ab1Ab2Abp]AB=A\begin{bmatrix}\mathbf b_1&\mathbf b_2&\cdots&\mathbf b_p\end{bmatrix}= \begin{bmatrix}A\mathbf b_1&A\mathbf b_2&\cdots&A\mathbf b_p\end{bmatrix}

矩阵 AA的列数必须和BB 的行数相等,乘积才有意义 。之前定义的矩阵向量乘法是矩阵乘法的特例。通常,更方便的方法是用元素定义矩阵乘法。设乘积 AB=(cij)m×pAB=(c_{ij})_{m× p}。则元素

cij=ai1b1j+ai2b2j++aipbpjc_{ij}=a_{i1}b_{1j}+a_{i2}b_{2j}+\cdots+a_{ip}b_{pj}

性质:矩阵乘法满足以下性质

  1. 矩阵乘法满足结合率:A(BC)=(AB)CA(BC)=(AB)C
  2. 矩阵乘法满足左分配律:A(B+C)=AB+ACA(B+C)=AB+AC
  3. 矩阵乘法满足右分配律:(B+C)A=BA+CA(B+C)A=BA+CA
  4. 矩阵乘法满足数乘分配律:k(AB)=(kA)B=A(kB)k(AB)=(kA)B=A(kB)
  5. 矩阵乘法单位元:IA=AI=AIA=AI=A

证明:(1) 可从矩阵乘法的定义证明满足结合率。从线性变换角度来看,对于复合变换 A(BC)A(BC)(AB)C(AB)C 是同样的变换,且依次作用的顺序并不会发生改变,变换的最终结果自然不变。

vCCvBBCvAABCv\mathbf v\xrightarrow{C}C\mathbf v\xrightarrow{B}BC\mathbf v\xrightarrow{A}ABC\mathbf v

注意:

  1. 矩阵乘法不满足交换率,即一般情况下 ABBAAB\neq BA
  2. 矩阵乘法不满足消去率,即若 AB=ACAB=AC,不能推出 B=CB=C ;同样由 AB=OAB=O,不能推出 A=OA=OB=OB=O

证明:(1) 一般地,复合变换 fggff\circ g\neq g\circ f ,自然 ABBAAB\neq BA,矩阵乘法不满足交换率。
(2) 可举例证明矩阵乘法不满足消去率

设矩阵

A=[010001001],B=[001000000]A=\begin{bmatrix}0&1&0\\ 0&0&1\\ 0&0&1\end{bmatrix},\quad B=\begin{bmatrix}0&0&1\\ 0&0&0\\ 0&0&0\end{bmatrix}

则有

AB=[010001001][001000000]=[000000000]=OBA=[001000000][010001001]=[001000000]OAB=\begin{bmatrix}0&1&0\\ 0&0&1\\ 0&0&1\end{bmatrix} \begin{bmatrix}0&0&1\\ 0&0&0\\ 0&0&0\end{bmatrix}= \begin{bmatrix}0&0&0\\ 0&0&0\\ 0&0&0\end{bmatrix}=O \\ BA=\begin{bmatrix}0&0&1\\ 0&0&0\\ 0&0&0\end{bmatrix} \begin{bmatrix}0&1&0\\ 0&0&1\\ 0&0&1\end{bmatrix}= \begin{bmatrix}0&0&1\\ 0&0&0\\ 0&0&0\end{bmatrix}\neq O

列空间与基

定义:为方便使用,先介绍几个简单的定义

  1. 线性变换是一种映射,称变换后的向量 T(v)T(\mathbf v) 为向量 v\mathbf v 在映射 TT 下的,而称 v\mathbf vT(v)T(\mathbf v) 在映射 TT 下的原像

  2. 线性变换 TT 的像集T(V)T(V)是一个线性空间,称为线性变换 TT值域,记作

    range(T)={T(v)vV}\text{range}(T)=\{T(\mathbf v)\mid\mathbf v\in V\}

  3. 在前面几节的分析中,我们始终将矩阵的列看成是向量。而这些列向量所张成的空间,称为列空间,若 A=(a1,a2,,an)A=(\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)

    col A=span{a1,a2,,an}\text{col }A=\text{span}\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n\}

我们已经知道,变换后的向量 AvA\mathbf v 是变换后的基向量以同样的系数线性组合,而矩阵的列就是基向量变换之后的位置。因此,矩阵 AA 线性变换后的空间即是矩阵 AA 的列空间

col A=range A={AvvV}\text{col }A=\text{range }A=\{A\mathbf v\mid\mathbf v\in V\}

定理:矩阵 AA 的主元列构成 col A\text{col }A 的一组基。

下面两个例子给出对列空间求基的简单算法。

例1:求 Col B\text{Col }B 的一组基,其中

B=(b1,b2,,bn)=[14020001100000100000]B=(\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n)=\begin{bmatrix}1&4&0&2&0\\ 0&0&1&-1&0\\ 0&0&0&0&1\\0&0&0&0&0\end{bmatrix}

事实上,BB 的每个非主元列都是主元列的线性组合 b2=4b1,b4=2b1b3\mathbf b_2=4\mathbf b_1,\mathbf b_4=2\mathbf b_1-\mathbf b_3 且主元列时线性无关的,所以主元列构成列空间的一组基 col B=span {b1,b3,b5}\text{col }B=\text{span }\{\mathbf b_1,\mathbf b_3,\mathbf b_5\}

当矩阵不是阶梯型矩阵时,回顾矩阵 A=(a1,a2,,an)A=(\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n) 中列向量间的线性关系都可以用方程 Ax=0A\mathbf x=0 的形式刻画。当 AA 被行简化为阶梯型矩阵 B=(b1,b2,,bn)B=(\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n) 时,即存在可逆矩阵 PP 使 B=PAB=PA 。若 BB 的列向量线性相关,即存在系数 x\mathbf x 使得 Bx=0B\mathbf x=0 ,即

x1b1+x2b2++xnbn=0x_1\mathbf b_1+x_2\mathbf b_2+\cdots+x_n\mathbf b_n=0

同样的系数 x\mathbf x 也适用于矩阵 AA 的列向量,Ax=P1Bx=0A\mathbf x=P^{-1}B\mathbf x=0,即

x1a1+x2a2++xnan=0x_1\mathbf a_1+x_2\mathbf a_2+\cdots+x_n\mathbf a_n=0

综上,即矩阵AA的列与阶梯型矩阵 BB 的列具有完全相同的线性相关关系。

例2:

A=(a1,a2,,an)=[1402131215528132520288]A=(\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)=\begin{bmatrix}1&4&0&2&-1\\ 3&12&1&5&5\\ 2&8&1&3&2\\5&20&2&8&8\end{bmatrix}

已知矩阵 AA 行等价于上例中的矩阵BB ,求 Col A\text{Col }A 的一组基。

由于上例中 b2=4b1,b4=2b1b3\mathbf b_2=4\mathbf b_1,\mathbf b_4=2\mathbf b_1-\mathbf b_3 ,相关关系完全适用于矩阵 AA 的列向量 a2=4a1,a4=2a1a3\mathbf a_2=4\mathbf a_1,\mathbf a_4=2\mathbf a_1-\mathbf a_3 。于是线性无关集 a1,a3,a5\mathbf a_1,\mathbf a_3,\mathbf a_5Col A\text{Col }A 的一组基 col A=span {a1,a3,a5}\text{col }A=\text{span }\{\mathbf a_1,\mathbf a_3,\mathbf a_5\}

注意:阶梯形矩阵的主元列通常不在原矩阵的列空间中。

矩阵的秩

矩阵的秩就是列空间的维度,记作 rank A=dim(col A)\text{rank }A=\dim(\text{col }A)

前面介绍的都是方阵,表示向量空间到自身的映射。下面简单说下非方阵的映射关系。

一般地,m×nm\times n 维的矩阵,表示将 nn 维空间中的向量映射到 mm 维空间中。矩阵的第jj列表示第 jj 个基向量变换后的坐标。例如:

3×23\times 2 维矩阵是把二维空间映射到三维空间上,因为矩阵有两列,说明输入空间有两个基向量,三行表示每一个基向量在变换后用三个独立的坐标来描述。

[113203][xy]=[130]x+[123]y\begin{bmatrix}1&-1\\3&2\\0&3\end{bmatrix} \begin{bmatrix}x\\y\end{bmatrix}= \begin{bmatrix}1\\3\\0\end{bmatrix}x+ \begin{bmatrix}-1\\2\\3\end{bmatrix}y

2×32\times 3 维矩阵是把三维空间映射到二维空间上,因为矩阵有三列,说明输入空间有三个基向量,二行表示每一个基向量在变换后用二个独立的坐标来描述。

[221101][xyz]=[21]x+[20]y+[11]z\begin{bmatrix}2&2&1\\1&0&-1\end{bmatrix} \begin{bmatrix}x\\y\\z\end{bmatrix}= \begin{bmatrix}2\\1\end{bmatrix}x+ \begin{bmatrix}2\\0\end{bmatrix}y+ \begin{bmatrix}1\\-1\end{bmatrix}z

若矩阵的秩等于列数,则称为满秩矩阵(full rank matrix),零向量一定在列空间内,满秩变换中,唯一能落在原点的就是零向量自身。满秩矩阵的列即为列空间的基。

对于非满秩矩阵,意味着该线性变换会将空间压缩到一个更低维的空间,通俗来讲,就是会有一系列直线上不同方向的向量压缩为原点。

由此可得,秩可以用来描述线性变换对空间的压缩程度

逆变换与逆矩阵

我们已经知道了矩阵与线性变换中的对应关系,试想一下,将变换后的向量还原到初始状态。

逆矩阵:对于 nn 阶方阵 AA ,如果存在 nn 阶方阵 BB ,使得

AB=BA=IAB=BA=I

则称矩阵 AA 可逆(invertible),BBAA逆矩阵。实际上, AA 的逆矩阵是唯一的,记为 A1A^{-1}。因为,若 B,CB,C 都是 AA 的逆矩阵,则

B=(CA)B=C(AB)=CB=(CA)B=C(AB)=C

不可逆矩阵有时称为奇异矩阵,而可逆矩阵也称为非奇异矩阵

性质:逆矩阵满足下列性质

  1. (A1)1=A(A^{-1})^{-1}=A
  2. (kA)1=1kA1,(k0)(kA)^{-1}=\dfrac{1}{k}A^{-1},\quad(k\neq0)
  3. (AB)1=B1A1(AB)^{-1}=B^{-1}A^{-1}
  4. (AT)1=(A1)T(A^T)^{-1}=(A^{-1})^T

证明:(性质3)若方阵 A,BA,B 都可逆,则有

(AB)(B1A1)=(B1A1)(AB)=I(AB)(B^{-1}A^{-1})=(B^{-1}A^{-1})(AB)=I

因此 (AB)1=B1A1(AB)^{-1}=B^{-1}A^{-1}

从变换的角度考虑,复合变换的逆 (fg)1=g1f1(f\circ g)^{-1}=g^{-1}\circ f^{-1} ,很容易理解。

(性质4)

I=(AA1)T=(A1)TAT,I=(A1A)T=AT(A1)TI=(AA^{-1})^T=(A^{-1})^TA^T,\quad I=(A^{-1}A)^T=A^T(A^{-1})^T

因此 (AT)1=(A1)T(A^T)^{-1}=(A^{-1})^T

线性方程组

高斯消元法

客观世界最简单的数量关系是均匀变化的关系。在均匀变化问题中,列出的方程组是一次方程组,我们称之为线性方程组(Linear system of equations)。nn元线性方程组的一般形式为

{a11x1+a12x2++a1nxn=b1a21x1+a22x2++a2nxn=b2am1x1+am2x2++amnxn=bm\begin{cases} a_{11}x_1+a_{12}x_2+\cdots+a_{1n}x_n=b_1 \\ a_{21}x_1+a_{22}x_2+\cdots+a_{2n}x_n=b_2 \\ \cdots\quad\cdots \\ a_{m1}x_1+a_{m2}x_2+\cdots+a_{mn}x_n=b_m \end{cases}

如果存在nn个常数 x1=s1,x2=s2,,xn=snx_1=s_1,x_2=s_2,\cdots,x_n=s_n 满足线性方程组的所有方程,则称为线性方程组的一个(solution)。方程组的所有解组成的集合称为这个方程组的解集

解线性方程组的一般方法,是把方程组用一个更容易解的等价方程组 (即有相同解集的方程组)代替。用来化简线性方程组的三种基本变换是:

(1) 互换两个方程的位置;
(2) 把某一个方程的所有项乘以一个非零常数;
(3) 把某一个方程加上另一个方程的常数倍;

以上三种变换称为高斯消元法(Gaussian Elimination)。

例如,解方程组

{2x2  x3=7x1+ x2+2x3=0x1+ x2  x3=6x1+3x22x3=1\begin{cases} \begin{alignedat}{4} &\quad 2x_2&-\ \ x_3 &= 7 \\ x_1&+\ x_2&+2x_3& = 0 \\ x_1&+\ x_2&-\ \ x_3& = -6 \\ x_1&+3x_2&-2x_3&=1 \end{alignedat} \end{cases}

经过基本变换把线性方程组化成阶梯形方程组

{x1+x2x3=62x2x3=73x3=60=0\begin{cases} \begin{alignedat}{4} x_1&+x_2&-x_3& = -6 \\ &\quad 2x_2&-x_3 &= 7 \\ &\quad &\quad 3x_3& = 6 \\ &\quad &\quad 0& = 0 \end{alignedat} \end{cases}

还可以进一步变换为简化阶梯形方程组

{x1=9x2=5x3=20=0\begin{cases} x_1 & & &=-9 \\ & x_2 & & = 5 \\ & & x_3& = 2 \\ & & 0& = 0 \end{cases}

上面的简单例子代表了用消元法解线性方程组的一般方法和计算格式。

初等行变换

根据矩阵与向量的乘法定义,线性方程组可写为矩阵形式

Ax=bA\mathbf x=\mathbf b

其中

A=[a11a12a1na21a22a2nam1am2amn],x=[x1x2xn],b=[b1b2bn]A=\begin{bmatrix} a_{11}&a_{12}&\cdots&a_{1n} \\ a_{21}&a_{22}&\cdots&a_{2n} \\ \vdots&\vdots&\ddots&\vdots \\ a_{m1}&a_{m2}&\cdots&a_{mn} \\ \end{bmatrix},\quad \mathbf x=\begin{bmatrix} x_1\\x_2\\\vdots\\x_n \end{bmatrix},\quad \mathbf b=\begin{bmatrix} b_1\\b_2\\\vdots\\b_n \end{bmatrix}

矩阵 AA 称为系数矩阵x\mathbf x未知数向量b\mathbf b常数向量

从上节求解线性方程组的过程中,不难发现,只是对线性方程组的系数和常数项进行了运算。因此,线性方程组可以用它的系数和常数项来求解。

为求解方便,把常数向量添加到系数矩阵最后一列,构成的矩阵

Aˉ=[Ab]=[a11a1nb1a21a2nb2am1amnbm]\bar A=[A\mid b]=\begin{bmatrix}\begin{array}{ccc:c} a_{11}&\cdots&a_{1n}&b_1 \\ a_{21}&\cdots&a_{2n}&b_2 \\ \vdots&\vdots&\ddots&\vdots \\ a_{m1}&\cdots&a_{mn}&b_m \\ \end{array}\end{bmatrix}

称为方程组的增广矩阵(augmented matrix)。

初等行变换:上节所讲的三种基本变换对应于矩阵的下列变换:

(1) 行互换变换:对调矩阵的第ii行和第jj行 ,记为 rirjr_i\lrarr r_j
(2) 行倍乘变换:矩阵的第ii行乘以非零常数kk,记为 krikr_i
(3) 行倍加变换:将第jj行的元素倍加到第ii行,记作 ri+krjr_i+kr_j

称为矩阵的初等行变换(elementary row transformation)。

矩阵消元法:在解线性方程组时,把它的增广矩阵经过初等行变换化成行阶梯形矩阵,写出相应的阶梯形方程组 ,进行求解;或者一直化成简化行阶梯形矩阵,写出它表示的简化阶梯形方程组,从而立即得出解。

上节例子中,增广矩阵经过初等行变换可简化为

Aˉ=[0217112011161321][1116021700360000]=B1\bar A=\begin{bmatrix}\begin{array}{ccc:c} 0 & 2 & -1 & 7 \\ 1 & 1 & 2 & 0\\ 1 & 1 & -1 & -6 \\ 1 & 3 & -2 & 1 \end{array}\end{bmatrix}\to \begin{bmatrix}\begin{array}{ccc:c} 1 & 1 & -1 & -6 \\ 0 & 2 & -1 & 7\\ 0 & 0 & 3 & 6 \\ 0 & 0 & 0 & 0 \end{array}\end{bmatrix}=B_1

称形如 B1B_1 的矩阵为行阶梯形矩阵(Row Echelon Form,REF)。其特点是:

(1) 若有零行(元素全为零的行),零行均在非零行的下方;
(2) 非零行第一个非零元素(称为主元,pivot)以下的元素全为零。

使用初等行变换对行阶梯形矩阵进一步化简

B1=[1116021700360000][1009010500120000]=B2B_1=\begin{bmatrix}\begin{array}{ccc:c} 1 & 1 & -1 & -6 \\ 0 & 2 & -1 & 7\\ 0 & 0 & 3 & 6 \\ 0 & 0 & 0 & 0 \end{array}\end{bmatrix}\to\begin{bmatrix}\begin{array}{ccc:c} 1 & 0 & 0 & -9 \\ 0 & 1 & 0 & 5\\ 0 & 0 & 1 & 2 \\ 0 & 0 & 0 & 0 \end{array}\end{bmatrix}=B_2

称形如 B2B_2 的矩阵为简化行阶梯形矩阵(Reduced Row Echelon Form,RREF)。其特点是:

(1) 每个非零行主元都是1;
(2) 主元所在列的其他元素都是零。

通过简化行阶梯形矩阵,我们可以直接写出解 x1=9,x2=5,x3=2x_1=-9,x_2=5,x_3=2

使用矩阵消元法,我们可以知道任何矩阵都可以经过有限次初等行变换化成行阶梯形矩阵,任何矩阵也可进一步化成简化行阶梯形矩阵

从最后的简化行阶梯形矩阵可以直接写出一般解,但注意把自由变量的系数变号移到等式右边。

线性方程组的解

假设某方程组的增广矩阵行已变换为阶梯形矩阵

[105101140000]\begin{bmatrix}\begin{array}{ccc:c} 1 & 0 & -5 & 1 \\ 0 & 1 & 1 & 4\\ 0 & 0 & 0 & 0 \end{array}\end{bmatrix}

对应的线性方程组是

{x15x3=1 x2+x3=40=0\begin{cases} \begin{alignedat}{4} x_1&&-5x_3& = 1 \\ &\quad\ x_2&+x_3 &= 4 \\ &\quad &\quad 0& =0 \end{alignedat} \end{cases}

方程组的解可显示表示为 x1=1+5x3, x2=4x3x_1=1+5x_3,\ x_2=4-x_3 ,显然有无穷多组解。

nn 元线性方程组的增广矩阵化成行阶梯形矩阵后,若有 rr 个非零行,则行阶梯形矩阵有 rr 个主元。以主元为系数的末知量称为主变量,剩下的 nrn-r 个未知量称为自由变量,其值可任取。

假设某方程组的增广矩阵行已变换为阶梯形矩阵

[2321014800015]\begin{bmatrix}\begin{array}{ccc:c} 2 & -3 & 2 & 1 \\ 0 & 1 & -4 & 8\\ 0 & 0 & 0 & 15 \end{array}\end{bmatrix}

对应的线性方程组是

{2x13x2+2x3=1 x24x3=80=15\begin{cases} \begin{alignedat}{4} 2x_1&-3x_2&+2x_3& = 1 \\ &\quad\ x_2&-4x_3 &= 8 \\ &\quad &\quad 0& = 15 \end{alignedat} \end{cases}

这个阶梯形方程组显然是矛盾的,故原方程组无解。

解的情况:线性方程组有解的充要条件是增广矩阵的增广列不是主元列,即行阶梯形方程组不包含矛盾方程。若线性方程组有解,则解有两种情况:(1) 当没有自由变量时,有唯 一解;(2) 当有自由变量是,有无穷多解。

向量方程

应用向量加法和数乘运算,线性方程组 Ax=bA\mathbf x=\mathbf b 可以写成向量方程

x1a1+x2a2++xnan=bx_1\mathbf a_1+x_2\mathbf a_2+\cdots+x_n\mathbf a_n=\mathbf b

其中 a1,a2,,an\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n 为系数矩阵 AA 的列向量组,b\mathbf b 为常数向量。它的一组解 s=(x1,x2,,xn)Ts=(x_1,x_2,\cdots,x_n)^T 称为方程组的解向量

例如,方程组

{2x1x2+x3=44x1+2x2x3=1\begin{cases} \begin{alignedat}{4} 2x_1&-x_2&+x_3& = 4 \\ 4x_1&+2x_2&-x_3& = -1 \end{alignedat} \end{cases}

可以表述为

[24]x1+[12]x2+[11]x3=[41]\begin{bmatrix}2\\4\end{bmatrix}x_1+ \begin{bmatrix}-1\\2\end{bmatrix}x_2+ \begin{bmatrix}1\\-1\end{bmatrix}x_3= \begin{bmatrix}4\\-1\end{bmatrix}

既然可表示为向量的形式,那么就可以从向量的角度分析。向量方程是否有解的问题等价于判断常数向量 b\mathbf b 能否由系数矩阵列向量组线性表示,即向量 b\mathbf b 是否属于系数矩阵的列空间 col A=span{a1,a2,,an}\text{col }A=\text{span}\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n\}

结论:方程 Ax=bA\mathbf x=\mathbf b有解的充要条件是 b\mathbf bAA 的各列的线性组合。

以线性变换的角度理解,希望找出未知向量 x\mathbf x ,使得该向量在线性变换 AA 的作用下变成已知向量 b\mathbf b。因此,我们可以从逆变换的角度获得未知向量。显然,如果变换后维度压缩,方程不一定有解。即列空间的维度低于未知向量维度。

齐次线性方程组的解

常数项都为零的线性方程组 Ax=0A\mathbf{x}=0 称为齐次线性方程组。向量方程为

x1a1+x2a2++xnan=0x_1\mathbf a_1+x_2\mathbf a_2+\cdots+x_n\mathbf a_n=0

齐次线性方程组显然有一组解

x1=x2==xn=0x_1=x_2=\cdots=x_n=0

这组解称为零解平凡解。除此之外的其他解称为非零解非平凡解

方程 Am×nx=0A_{m\times n}\mathbf{x}=0 有非零解等价于 AA 的列向量组线性相关,即 rank(A)<n\text{rank}(A)<n

齐次线性方程组的解有如下性质

  1. 如果 s1,s2s_1,s_2 是齐次线性方程组的两个解向量,则 s1+s2s_1+s_2 也是方程组的解向量。
  2. 如果 ss 是齐次线性方程组的解向量,则对任意常数kkksks 也是方程组的解向量。

这两条性质只要直接代入向量方程进行验证就可以。

显然,系数矩阵为 AA 的齐次线性方程组的解集

kerA={xAx=0}\ker A=\{\mathbf x|A\mathbf{x}=0\}

满足向量空间的条件, 称为零空间(nullspace)或(kernel)。解空间的一组基 s1,s2,,snrs_1,s_2,\cdots,s_{n-r} 称为该方程组的基础解系零空间的维数即为自由变量的个数

如果能找到基础解系,就能描述整个解空间。

定理

  1. 方程 Am×nx=0A_{m\times n}\mathbf{x}=0 有非零解的充要条件是 rank(A)<n\text{rank}(A)<n
  2. 方程 Am×nx=0A_{m\times n}\mathbf{x}=0 基础解系中自由变量的个数等于 nrank(A)n-\text{rank}(A)
  3. AA 是向量空间 VV 内的线性变换

dimV=dim(range A)+dim(kerA)\dim V=\dim(\text{range }A)+\dim(\ker A)

可以用系数矩阵的初等行变换来求基础解系。

示例:求下列齐次线性方程组的解集。

{x2x3+x4x5=0x1+x3+2x4x5=0x1+x2+3x42x5=02x1+2x2+6x43x5=0\begin{cases} x_2-x_3+x_4-x_5=0 \\ x_1+x_3+2x_4-x_5=0 \\ x_1+x_2+3x_4-2x_5=0 \\ 2x_1+2x_2+6x_4-3x_5=0 \end{cases}

解:先做矩阵消元法获得阶梯形矩阵和简化阶梯形矩阵

A=[01111101211103222063][10121011110000100000][10120011100000100000]A=\begin{bmatrix} 0&1&-1&1&-1 \\ 1&0&1&2&-1 \\ 1&1&0&3&-2 \\ 2&2&0&6&-3 \end{bmatrix}\to \begin{bmatrix} 1&0&1&2&-1 \\ 0&1&-1&1&-1 \\ 0&0&0&0&1 \\ 0&0&0&0&0 \end{bmatrix}\to \begin{bmatrix} 1&0&1&2&0 \\ 0&1&-1&1&0 \\ 0&0&0&0&1 \\ 0&0&0&0&0 \end{bmatrix}

因此

{x1=x32x4x2=x3x4x5=0\begin{cases} x_1=-x_3-2x_4 \\ x_2=x_3-x_4 \\ x_5=0 \end{cases}

可写为解向量的形式

[x1x2x3x4x5]=x3[11100]+x4[21010]\begin{bmatrix}x_1 \\ x_2 \\ x_3 \\ x_4 \\ x_5\end{bmatrix}= x_3\begin{bmatrix}-1 \\ 1 \\ 1 \\ 0 \\ 0\end{bmatrix} +x_4\begin{bmatrix}-2\\-1\\0\\1\\0\end{bmatrix}

非齐次线性方程组的解

对于非齐次线性方程组 Ax=0A\mathbf{x}=0 。判断向量方程 x1a1+x2a2++xnan=bx_1\mathbf a_1+x_2\mathbf a_2+\cdots+x_n\mathbf a_n=\mathbf b 是否有解,等价于判断常数向量 b\mathbf b 是否属于 span{a1,a2,,an}\text{span}\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n\}

判别定理:线性方程组有解的充要条件是其系数矩阵AA与增广矩阵Aˉ\bar A的秩相等 rank(A)=rank(Aˉ)\text{rank}(A)=\text{rank}(\bar A)

通俗理解就是,变换后的阶梯形方程组不存在 0=b0=b 的矛盾方程。

解的结构:设 nn 元非齐次线性方程组 rank(A)=rank(Aˉ)\text{rank}(A)=\text{rank}(\bar A)

(1) 若 rank(A)=n\text{rank}(A)=n,方程组有唯一解;
(2) 若 rank(A)<n\text{rank}(A)<n,方程组有无穷多解。

非齐次线性方程组 Ax=bA\mathbf x=\mathbf b 对应的齐次线性方程组 Ax=0A\mathbf x=0 称为导出方程组。解的关系:

  1. Ax=bA\mathbf x=\mathbf b 的任意两个解向量之差是 Ax=0A\mathbf x=0 的一个解向量;
  2. Ax=bA\mathbf x=\mathbf b 的通解是其任一解向量与 Ax=bA\mathbf x=\mathbf b 通解之和。

如下图

示例:求下列线性方程组的全部解

{x1+4x25x3=02x1x2+8x3=9\begin{cases} \begin{alignedat}{4} x_1&+4x_2&-5x_3& = 0 \\ 2x_1&-x_2&+8x_3& = 9 \end{alignedat} \end{cases}

解:对方程组的增广矩阵做初等行变换获得阶梯形矩阵和简化阶梯形矩阵

Aˉ=[14502189][145009189][10340121]\bar A=\begin{bmatrix}\begin{array}{ccc:c} 1&4&-5&0 \\ 2&-1&8&9 \end{array}\end{bmatrix}\to \begin{bmatrix}\begin{array}{ccc:c} 1&4&-5&0 \\ 0&-9&18&9 \end{array}\end{bmatrix}\to \begin{bmatrix}\begin{array}{ccc:c} 1&0&3&4 \\ 0&1&-2&1 \end{array}\end{bmatrix}

因此

{x1=43x3x2=1+2x3\begin{cases} x_1=4-3x_3 \\ x_2=1+2x_3 \end{cases}

解向量的形式为

[x1x2x3]=[410]+x3[321]\begin{bmatrix}x_1\\x_2\\x_3\end{bmatrix}= \begin{bmatrix}4\\1\\0\end{bmatrix} +x_3\begin{bmatrix}-3 \\ 2 \\ 1 \end{bmatrix}

行列式

二阶行列式

行列式引自对线性方程组的求解。考虑两个方程的二元线性方程组

{a11x1+a12x2=b1a21x1+a22x2=b2\begin{cases} a_{11}x_1+a_{12}x_2=b_1 \\ a_{21}x_1+a_{22}x_2=b_2 \end{cases}

可使用消元法,得

(a11a22a12a21)x1=b1a22a12b2(a11a22a12a21)x2=a11b2b1a21(a_{11}a_{22}-a_{12}a_{21})x_1=b_1a_{22}-a_{12}b_2 \\ (a_{11}a_{22}-a_{12}a_{21})x_2=a_{11}b_2-b_1a_{21}

a11a22a12a210a_{11}a_{22}-a_{12}a_{21}\neq 0 时,得

x1=b1a22a12b2a11a22a12a21,x2=a11b2b1a21a11a22a12a21x_1=\frac{b_1a_{22}-a_{12}b_2}{a_{11}a_{22}-a_{12}a_{21}},\quad x_2=\frac{a_{11}b_2-b_1a_{21}}{a_{11}a_{22}-a_{12}a_{21}}

从方程组解来看,分母 a11a22a12a21a_{11}a_{22}-a_{12}a_{21} 是系数矩阵 A=[a11a12a21a22]A=\begin{bmatrix} a_{11} & a_{12} \\ a_{21} & a_{22}\end{bmatrix} 的元素计算得到,称这个值为矩阵 AA二阶行列式(determinant),记为 detA\det AA|A| ,或记为数表形式

a11a12a21a22=a11a22a12a21\begin{vmatrix} a_{11} & a_{12} \\ a_{21} & a_{22} \end{vmatrix}=a_{11}a_{22}-a_{12}a_{21}

利用二阶行列式的概念,分子也可写为二阶行列式

detA1=b1a12b2a22=b1a22a12b2detA2=a11b1a21b2=a11b2b1a21\det A_1=\begin{vmatrix} b_1 & a_{12} \\ b_2 & a_{22}\end{vmatrix}=b_1a_{22}-a_{12}b_2 \\ \det A_2=\begin{vmatrix} a_{11} & b_1 \\ a_{21} & b_2\end{vmatrix}=a_{11}b_2-b_1a_{21}

从上面对比可以看出,xjx_j 的矩阵 AjA_j 是系数矩阵 AA的第 jj 列用常数项代替后的矩阵。这样,方程组的解可表示为

x1=detA1detA,x2=detA2detAx_1=\frac{\det A_1}{\det A},\quad x_2=\frac{\det A_2}{\det A}

nn 阶行列式

考虑三个方程的三元线性方程组,系数矩阵为

A=[a11a12a13a21a22a23a31a32a33]A=\begin{bmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\a_{31} & a_{32} & a_{33}\end{bmatrix}

用消元法可知未知数的分母同样是系数矩阵AA 的元素运算得到,于是定义三阶行列式为

a11a12a13a21a22a23a31a32a33=a11a22a33+a12a23a31+a13a21a32a11a23a32a12a21a33a13a22a31\begin{vmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\a_{31} & a_{32} & a_{33}\end{vmatrix} =a_{11}a_{22}a_{33}+a_{12}a_{23}a_{31}+a_{13}a_{21}a_{32} -a_{11}a_{23}a_{32}-a_{12}a_{21}a_{33}-a_{13}a_{22}a_{31}

由二阶行列式的定义,上式可变为

a11a12a13a21a22a23a31a32a33=a11a22a23a32a33a12a21a23a31a33+a13a11a12a21a22\begin{vmatrix} a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\a_{31} & a_{32} & a_{33}\end{vmatrix}= a_{11}\begin{vmatrix} a_{22} & a_{23} \\ a_{32} & a_{33}\end{vmatrix}- a_{12}\begin{vmatrix} a_{21} & a_{23} \\ a_{31} & a_{33}\end{vmatrix}+ a_{13}\begin{vmatrix} a_{11} & a_{12} \\ a_{21} & a_{22}\end{vmatrix}

进一步探索 nn 元线性方程组,可知高阶行列式定义。为书写方便,把元素 aija_{ij} 所在的行和列划掉后,剩下的元素组成的行列式称为 aija_{ij}余子式(cofactor),记作 MijM_{ij} ,并称

Aij=(1)i+jMijA_{ij}=(-1)^{i+j}M_{ij}

aija_{ij}代数余子式(algebraic cofactor)。

定义:方阵 AA 的行列式用第一行元素的代数余子式定义为

detA=a11a12a1na21a22a2nan1an2ann=j=1na1jA1j\det A=\begin{vmatrix} a_{11}&a_{12}&\cdots&a_{1n} \\ a_{21}&a_{22}&\cdots&a_{2n} \\ \vdots&\vdots&\ddots&\vdots \\ a_{n1}&a_{n2}&\cdots&a_{nn} \\ \end{vmatrix}=\sum_{j=1}^na_{1j}A_{1j}

由定义易知,行列式可以按任意行(列)展开。

\det A=\sum_{j=1}^na_{ij}A_{ij}, & \text{by row }i \\ \det A=\sum_{i=1}^na_{ij}A_{ij}, & \text{by col }j

行列式的性质

性质:使用数学归纳法可知

  1. 行列式与其转置行列式相等:detAT=detA\det A^T=\det A

  2. 互换行列式两行(列),行列式改变符号。

    abcd=cdab\begin{vmatrix}a&b\\c&d\end{vmatrix}=-\begin{vmatrix}c&d\\a&b\end{vmatrix}

  3. 行列式的某一行(列)所有元素同乘以数kk,等于数kk乘以该行列式。

    kabkcd=kabcd\begin{vmatrix}ka&b\\kc&d\end{vmatrix}=k\begin{vmatrix}a&b\\c&d\end{vmatrix}

  4. 若行列式的某一行(列)的为两组数之和,则可表示为两行列式之和。

    a1+a2bc1+c2d=a1bc1d+a2bc2d\begin{vmatrix}a_1+a_2&b\\c_1+c_2&d\end{vmatrix}=\begin{vmatrix}a_1&b\\c_1&d\end{vmatrix}+\begin{vmatrix}a_2&b\\c_2&d\end{vmatrix}

  5. 把行列式的某一行(列)所有元素同乘以数 kk 都加到另一行(列)对应的元素上去,行列式的值不变。

    abcd=a+kbbc+kdd\begin{vmatrix}a&b\\c&d\end{vmatrix}=\begin{vmatrix}a+kb&b\\c+kd&d\end{vmatrix}

  6. 矩阵乘积的行列式等于行列式的乘积:det(AB)=(detA)(detB)=det(BA)\det(AB)=(\det A)(\det B)=\det(BA)

推论

  1. 行列式中若有两行(列)元素相同,该行列式的值为零。
  2. 行列式中某一行(列)的公因子可以提取到行列式符号外面。
  3. 行列式中若有两行(列)元素成比例,则此行列式等于零。
  4. det(kA)=kndetA\det(kA)=k^n\det A

由上面的性质,我们很容易得到:

  1. 出现零行和零列的行列式为零。
  2. 对角阵 A=diag(λ1,λ2,,λn)A=\text{diag}(\lambda_1,\lambda_2,\cdots,\lambda_n) 的行列式 detA=λ1λ2λn\det A=\lambda_1\lambda_2\cdots\lambda_n
  3. 如果 AA 是三角阵,行列式为主对角线元素的乘积。

对于高阶行列式,一般利用行列式的性质,初等变换化为三角行列式求解。

示例:可用数学归纳法证明范德蒙行列式(Vandermonde determinant):

111a1a2ana12a22an2a1n1a2n1ann1=1i<jn(ajai)\begin{vmatrix} 1 & 1& \cdots &1 \\ a_1 &a_2&\cdots &a_n \\ a_1^2 &a_2^2&\cdots &a_n^2 \\ \vdots &\vdots&\vdots &\vdots \\ a_1^{n-1} &a_2^{n-1}&\cdots &a_n^{n-1} \end{vmatrix}=\prod_{1⩽ i<j⩽n}(a_j-a_i)

行列式函数:若 AAnn阶矩 阵,可以将 detA\det A 看作 AAnn 个列向量的函数。若 AA 中除了一列之外都是固定的向量,则 detA\det A 是线性函数。

假设第 jj 列是变量,定义映射 xT(x)\mathbf x\mapsto T(\mathbf x)

T(x)=detA=det[a1xan]T(\mathbf x)=\det A=\det\begin{bmatrix}\mathbf a_1\cdots\mathbf x\cdots\mathbf a_n\end{bmatrix}

则有

T(cx)=cT(x)T(u+v)=T(u)+T(v)T(c\mathbf x)=cT(\mathbf x) \\ T(\mathbf u+\mathbf v)=T(\mathbf u)+T(\mathbf v)

克拉默法则

这里只讨论方程个数和未知数相等的nn元线性方程组

Ax=bA\mathbf x=\mathbf b

detA0\det A\neq0,那么它有唯一解

xj=detAj(b)detA,(j=1,2,,n)x_j=\frac{\det A_j(\mathbf b)}{\det A},\quad(j=1,2,\cdots,n)

约定 Aj(b)A_j(\mathbf b) 表示用向量 b\mathbf b 替换矩阵AA的第jj列。

证:用a1,a2,,an\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n 表示矩阵AA 的各列,e1,e2,,en\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n 表示单位阵InI_n 的各列。由分块矩阵乘法

AIj(x)=A[e1xen]=[Ae1AxAen]=[a1ban]=Aj(b)\begin{aligned} AI_j(\mathbf x)&=A\begin{bmatrix}\mathbf e_1&\cdots&\mathbf x&\cdots&\mathbf e_n\end{bmatrix} \\ &=\begin{bmatrix}A\mathbf e_1&\cdots& A\mathbf x&\cdots& A\mathbf e_n\end{bmatrix} \\ &=\begin{bmatrix}\mathbf a_1&\cdots&\mathbf b&\cdots&\mathbf a_n\end{bmatrix} \\ &=A_j(\mathbf b) \end{aligned}

由行列式的乘法性质

detAdetIj(x)=detAj(b)\det A\det I_j(\mathbf x)=\det A_j(\mathbf b)

左边第二个行列式可沿第 jj 列余子式展开求得 detIj(x)=xj\det I_j(\mathbf x)=x_j。从而

xjdetA=detAj(b)x_j\det A=\det A_j(\mathbf b)

detA0\det A\neq0,则上式得证。

行列式的几何理解

Grant:行列式告诉你一个线性变换对区域的缩放比例。

我们已经知道,线性变换保持网格线平行且等距。为了方便,我们只考虑在平面直角坐标系内,单位基向量 i,j\mathbf i,\mathbf j 所围成的单位正方形区域的线性变换。

根据向量加法的平行四边形法则和线性变换基本性质知,变换后的区域为矩阵 A=[abcd]A=\begin{bmatrix}a & b\\c & d\end{bmatrix} 的列向量 [ac]\begin{bmatrix}a\\c\end{bmatrix}[bd]\begin{bmatrix}b\\d\end{bmatrix} 为邻边的平行四边形区域。

结论:二阶行列式的值表示由 AA 的列确定的有向平行四边形的面积。

(1) 若 AA 为对角阵,显然行列式 det[ab0d]\det\begin{bmatrix}a & b\\0 & d\end{bmatrix} 表示底为 aa,高为 dd 的平行四边形面积

(2) 更一般的情况 A=[abcd]A=\begin{bmatrix}a & b\\c & d\end{bmatrix} ,可以看出,行列式的值与面积有着紧密的联系。

(3) 矩阵 [a2aa1]\begin{bmatrix}a^2 & a\\a & 1\end{bmatrix} 表示将单位正方形压缩成线段,面积自然为0,行列式的值为0

单位正方形区域缩放的比例,其实可以代表任意给定区域缩放的比例。这是因为,线性变换保持网格线平行且等距。对于空间中任意区域的面积,借助微积分的思想,我们可以采用足够的小方格来逼近区域的面积,对所有小方格等比例缩放,则整个区域也以同样的比例缩放。

volume T(Ω)=(detT)(volume Ω)\text{volume }T(\Omega) = (\det T)(\text{volume }\Omega)

通过行列式的几何意义,我们就建立了线性变换、矩阵、行列式之间的关系。不难得出

  1. 复合线性变换缩放的比例相当于每次变换缩放比例的乘积,即

    detAB=detAdetB\det AB=\det A\det B

  2. 行列式的值为零,表示将空间压缩到更低的维度,矩阵的列向量线性相关

矩阵的运算

矩阵的转置

转置:矩阵AA的行列互换得到的矩阵称为 AA 的转置(transpose),记作 ATA^T

性质:矩阵转置运算满足下列性质:

  1. (A+B)T=AT+BT(A+B)^T=A^T+B^T
  2. (AT)T=A(A^T)^T=A
  3. (kA)T=kAT(kA)^T=kA^T
  4. (AB)T=BTAT(AB)^T=B^TA^T
  5. (AT)1=(A1)T(A^T)^{-1}=(A^{-1})^T

方阵的运算

三角矩阵:(triangular matrix)主对角线的下方元素都是零的方阵,称为上三角矩阵。类似的,主对角线的上方元素都是零的方阵,称为下三角矩阵

[a11a12a1na22a2nann],[a11a21a22an1an2ann]\begin{bmatrix} a_{11}&a_{12}&\cdots&a_{1n} \\ &a_{22}&\cdots&a_{2n} \\ &&\ddots&\vdots \\ &&&a_{nn} \\ \end{bmatrix},\quad \begin{bmatrix} a_{11}&&& \\ a_{21}&a_{22}&& \\ \vdots&\vdots&\ddots& \\ a_{n1}&a_{n2}&\cdots&a_{nn} \\ \end{bmatrix}

上(下)三角阵的行列式为主对角线元素的乘积

detA=a11a22ann\det A=a_{11}a_{22}\cdots a_{nn}

对角阵:不在主对角线上的元素全为零的矩阵称为对角阵(diagonal matrix),记作

diag(a1,a2,,an)=[a1a2an]\mathrm{diag}(a_1,a_2,\cdots,a_n)=\begin{bmatrix} a_1 \\ &a_2 \\ &&\ddots \\ &&&a_n \\ \end{bmatrix}

对角阵有良好的性质:

  1. 两对角阵的乘积仍为对角阵

    [a1a2an][b1b2bn]=[a1b1a2b2anbn]\begin{bmatrix}a_1 \\&a_2 \\&&\ddots \\&&&a_n \end{bmatrix} \begin{bmatrix}b_1 \\&b_2 \\&&\ddots \\&&&b_n \end{bmatrix}= \begin{bmatrix}a_1b_1 \\&a_2b_2 \\&&\ddots \\&&&a_nb_n \end{bmatrix}

  2. 对角阵的幂仍为对角阵

    [a1a2an]k=[a1ka2kank]\begin{bmatrix}a_1 \\&a_2 \\&&\ddots \\&&&a_n \end{bmatrix}^k= \begin{bmatrix}a_1^k \\&a_2^k \\&&\ddots \\&&&a_n^k \end{bmatrix}

数量阵:主对角线上的元素都相等的对角阵,称为数量阵(scalar matrix)。

diag(a,a,,a)=[aaa]\mathrm{diag}(a,a,\cdots,a)=\begin{bmatrix} a \\ &a \\ &&\ddots \\ &&&a \\ \end{bmatrix}

数量阵得名于它的乘法。如二阶数量阵

[k00k]A=k[1001]A=kA\begin{bmatrix}k&0 \\ 0&k \end{bmatrix}A=k\begin{bmatrix}1&0 \\ 0&1 \end{bmatrix}A=kA

单位阵:主对角线上的元素全为1的对角阵,称为单位阵(identity matrix)。nn 阶单位阵记作EnE_nInI_n。任何矩阵与单位阵的乘积都等于自身。

I3=[100010001]I_3=\begin{bmatrix}1&0&0 \\0&1&0 \\0&0&1 \\ \end{bmatrix}

对称阵反对称阵:设 A=(aij)A=(a_{ij})nn阶方阵,若AT=AA^T=A ,即aij=ajia_{ij}=a_{ji},则称为对称阵(symmetric matrix);若AT=AA^T=-A ,即 aij=ajia_{ij}=-a_{ji},则称为反对称阵(skew-symmetric matrix)。

易证明 AATAA^TATAA^TA 是对称阵。

方阵的幂:由于矩阵满足结合律,我们可以定义矩阵的幂运算

A0=I,An=AAAnA^0=I,\quad A^n=\overbrace{AA\cdots A}^n

当矩阵 AA 可逆时,定义

Ak=(A1)kA^{-k}=(A^{-1})^k

显然只有方阵的幂才有意义。幂运算满足如下性质:

  1. AkAl=Ak+lA^kA^l=A^{k+l}
  2. (Ak)l=Akl(A^k)^l=A^{kl}

注意:因为矩阵乘法无交换率,因此一般情况下 (AB)kAkBk(AB)^k\neq A^kB^k

初等矩阵

初等变换:矩阵初等行变换的定义同样适用于列,相应的记法为 cicj,kci,ci+kcjc_i\lrarr c_j,kc_i,c_i+kc_j 。矩阵的初等行变换和初等列变换统称矩阵的初等变换。若矩阵 AA 经有限次初等变换变为BB,则称AABB 等价(equivalent) 。

矩阵的初等变换是矩阵的一种最基本运算,其过程可以通过特殊矩阵的乘法来表示。

初等矩阵:由单位矩阵进行一次初等变换得到的矩阵称为初等矩阵(elementary matrix)。易知初等矩阵都是可逆的。

三种初等变换对应着三种初等矩阵。由矩阵的乘法运算可以验证:对矩阵的初等行变换相当于左乘相应的初等矩阵;对矩阵的初等列变换相当于右乘相应的初等矩阵

  1. 互换变换,如 r1r2r_1\lrarr r_2

    [010100001][a1b1a2b2a3b3]=[a2b2a1b1a3b3]\begin{bmatrix}0&1&0 \\1&0&0\\0&0&1\end{bmatrix} \begin{bmatrix}a_1&b_1 \\a_2&b_2\\a_3&b_3\end{bmatrix}= \begin{bmatrix}a_2&b_2\\a_1&b_1 \\a_3&b_3\end{bmatrix}

  2. 倍乘变换,如 2r12r_1

    [200010001][a1b1a2b2a3b3]=[2a1b1a2b2a3b3]\begin{bmatrix}2&0&0 \\0&1&0\\0&0&1\end{bmatrix} \begin{bmatrix}a_1&b_1 \\a_2&b_2\\a_3&b_3\end{bmatrix}= \begin{bmatrix}2a_1&b_1 \\a_2&b_2\\a_3&b_3\end{bmatrix}

  3. 倍加变换,如 r1+2r2r_1+2r_2

    [120010001][a1b1a2b2a3b3]=[a1+2a2b1+2b2a2b2a3b3]\begin{bmatrix}1&2&0 \\0&1&0\\0&0&1\end{bmatrix} \begin{bmatrix}a_1&b_1 \\a_2&b_2\\a_3&b_3\end{bmatrix}= \begin{bmatrix}a_1+2a_2&b_1+2b_2 \\a_2&b_2\\a_3&b_3\end{bmatrix}

定理:任意一个可逆矩阵都可以表示为有限个初等矩阵的乘积。

由于初等矩阵可逆,所以初等矩阵的乘积亦可逆。

所有矩阵都可通过初等变换化为标准型

[11}r00]=[IrOOO]\begin{bmatrix} \left.\begin{matrix}1&& \\ &\ddots&\\&&1\end{matrix}\right\}r & \\ &\begin{matrix}0 \\ &\ddots&\\&&0\end{matrix} \end{bmatrix}= \begin{bmatrix}I_r&O \\O&O\end{bmatrix}

分块矩阵

分块矩阵是矩阵运算的一种技巧。

在矩阵的运算和理论研究中,有时对矩阵进行分块处理,常常会简化矩阵的运算,或者使原矩阵显得结构简单而清晰。

[100001000015]=[I2OOA]\begin{bmatrix} \begin{array}{cc:cc} 1&0 & 0 & 0 \\ 0&1 & 0 &0 \\ \hdashline 0&0 & 1 & 5 \end{array}\end{bmatrix} =\begin{bmatrix} I_2 & O \\ O & A \end{bmatrix}

像这样,结合矩阵本身的特点,把一个矩阵用横线和竖线划分为若干个子块,并以所分的子块为元素的矩阵称为分块矩阵(Block matrix)。一个矩阵可用不同的方法分块。

分块矩阵的运算形式上和普通矩阵相同,把子块当成元素计算即可。

加法:设分块 A,BA,B 是同型矩阵,且对它们的分法相同,则 A+B=(Aij+Bij)A+B=(A_{ij}+B_{ij})

[A1B1C1D1]+[A2B2C2D2]=[A1+A2B1+B2C1+C2D1+D2]\begin{bmatrix}A_1 & B_1 \\C_1 & D_1 \end{bmatrix}+ \begin{bmatrix}A_2 & B_2 \\C_2 & D_2 \end{bmatrix}=\begin{bmatrix}A_1+A_2 & B_1+B_2 \\C_1+C_2 & D_1+D_2 \end{bmatrix}

数乘:分块矩阵 AA ,数乘作用于每个子块。

k[ABCD]=[kAkBkCkD]k\begin{bmatrix}A & B \\C & D \end{bmatrix}=\begin{bmatrix}kA & kB \\kC & kD \end{bmatrix}

乘法:分块矩阵的乘法按矩阵乘法的形式计算。

AB=A[b1b2bp]=[Ab1Ab2Abp]AB=A\begin{bmatrix}\mathbf b_1&\mathbf b_2&\cdots&\mathbf b_p\end{bmatrix}= \begin{bmatrix}A\mathbf b_1&A\mathbf b_2&\cdots&A\mathbf b_p\end{bmatrix}

矩阵乘法的列行展开

AB=[a1a2an][b1b2bn]=a1b1+a2b2++anbnAB=\begin{bmatrix}\mathbf a_1&\mathbf a_2&\cdots&\mathbf a_n\end{bmatrix} \begin{bmatrix}\mathbf b_1\\\mathbf b_2\\\vdots\\\mathbf b_n\end{bmatrix} =\mathbf a_1\mathbf b_1+\mathbf a_2\mathbf b_2+\cdots+\mathbf a_n\mathbf b_n

转置:分块矩阵 A=(Aij)A=(A_{ij}) 的转置等于各子块的转置 AT=(AijT)A^T=(A_{ij}^T)

分块上三角矩阵

[ABOD]1=[A1A1BD1OD1]\begin{bmatrix}A&B\\O&D\end{bmatrix}^{-1}= \begin{bmatrix}A^{-1}&-A^{-1}BD^{-1}\\O&D^{-1}\end{bmatrix}

设分块矩阵 [X1X2X3X4]\begin{bmatrix}X_1&X_2\\X_3&X_4\end{bmatrix} 是矩阵 [ABOD]\begin{bmatrix}A&B\\O&D\end{bmatrix} 的逆,则

[ABOD][X1X2X3X4]=[IpOOIq]\begin{bmatrix}A&B\\O&D\end{bmatrix} \begin{bmatrix}X_1&X_2\\X_3&X_4\end{bmatrix} =\begin{bmatrix}I_p&O\\O&I_q\end{bmatrix}

这个矩阵方程包含了4个未知子块的方程

AX1+BX3=IpAX2+BX4=ODX3=ODX4=IqAX_1+BX_3=I_p \\ AX_2+BX_4=O \\ DX_3=O \\ DX_4=I_q

DD 可逆,从后两个方程可以得到 X3=O,X4=D1X_3=O,X_4=D^{-1} ;若 AA 可逆,进一步可以得到X1=A1,X2=A1BD1X_1=A^{-1},X_2=-A^{-1}BD^{-1} 。便可获得分块上三角矩阵的逆。

分块对角矩阵:分块对角矩阵拥有良好的性质。

(1) 分块对角矩阵乘积

[A1A2As][B1B2Bs]=[A1B1A2B2AsBs]\begin{bmatrix}A_1 \\&A_2 \\&&\ddots \\&&&A_s \end{bmatrix} \begin{bmatrix}B_1 \\&B_2 \\&&\ddots \\&&&B_s \end{bmatrix} =\begin{bmatrix}A_1B_1 \\&A_2B_2 \\&&\ddots \\&&&A_sB_s \end{bmatrix}

(2) 若分块对角矩阵的各个子块可逆,则该对角分块矩阵可逆

[A1A2As]1=[A11A21As1]\begin{bmatrix}A_1 \\&A_2 \\&&\ddots \\&&&A_s \end{bmatrix}^{-1}= \begin{bmatrix}A_1^{-1} \\&A_2^{-1} \\&&\ddots \\&&&A_s^{-1} \end{bmatrix}

(3) 分块对角矩阵的行列式为对角位置的行列式乘积

det[A1A2As]=detA1detA2detAs\det\begin{bmatrix}A_1 \\&A_2 \\&&\ddots \\&&&A_s \end{bmatrix} =\det A_1\det A_2\cdots\det A_s

逆矩阵

利用克拉默法可以容易地导出一个求矩阵的逆的一般公式。设矩阵 A=(aij)n×nA=(a_{ij})_{n\times n} 的逆矩阵 A1=(bij)n×nA^{-1}=(b_{ij})_{n\times n} ,利用分块矩阵的乘法

AA1=A[b1b2bn]=In=[e1e2en]AA^{-1}=A\begin{bmatrix}\mathbf b_1&\mathbf b_2&\cdots&\mathbf b_n\end{bmatrix} =I_n=\begin{bmatrix}\mathbf e_1&\mathbf e_2&\cdots&\mathbf e_n\end{bmatrix}

其中 bj\mathbf b_j 是矩阵 A1A^{-1} 的第 jj 列, ej\mathbf e_j 是单位阵 InI_n 的第 jj 列。于是

Abj=ejA\mathbf b_j=\mathbf e_j

向量 bj\mathbf b_j 的第 ii 个元素是 A1A^{-1} 的元素 bijb_{ij} 。由克拉默法则求得

bij=detAi(ej)detAb_{ij}=\frac{\det A_i(\mathbf e_j)}{\det A}

回顾代数余子式的定义,它是把矩阵 AA 中元素 aija_{ij} 所在的行和列划掉后得到的。detAi(ej)\det A_i(\mathbf e_j) 按第 ii 列的余子展开式为

detAi(ej)=(1)i+jMji=Aji\det A_i(\mathbf e_j)=(-1)^{i+j}M_{ji}=A_{ji}

于是可写出矩阵 AA 的逆

A1=1detAadj AA^{-1}=\dfrac{1}{\det A}\text{adj }A

其中 adj A\text{adj }A 是矩阵 AA 的各个元素的代数余子式AjiA_{ji} 所构成的矩阵

adj A=[A11A21An1A12A22An2A1nA2nAnn]\text{adj }A=\begin{bmatrix} A_{11}&A_{21}&\cdots&A_{n1} \\ A_{12}&A_{22}&\cdots&A_{n2} \\ \vdots&\vdots&\ddots&\vdots \\ A_{1n}&A_{2n}&\cdots&A_{nn} \\ \end{bmatrix}

做矩阵AA伴随矩阵(Adjugate Matrix) 。

注意,伴随矩阵里代数余子式的排列顺序是颠倒的。

定理:方阵 AA 可逆的充要条件是 detA0\det A\neq0 ,且 A1=1detAadj AA^{-1}=\dfrac{1}{\det A}\text{adj }A

此定理仅适用于理论上的计算矩阵的逆,使我们不用实际计算出A1A^{-1} 就可以推导出性质。

这里给出二阶方阵 A=[abcd]A=\begin{bmatrix}a&b\\c&d\end{bmatrix} 的逆,若 detA=adbc0\det A=ad-bc\neq0

A1=1adbc[dbca]A^{-1}=\frac{1}{ad-bc}\begin{bmatrix}d&-b\\-c&a\end{bmatrix}

推论

  1. nn 阶方阵 A,BA,B 满足 AB=IAB=IBA=IBA=I ,则 B=A1B=A^{-1}
  2. A(adj A)=(adj A)A=(detA)IA(\text{adj }A)=(\text{adj }A)A=(\det A)I

有了推论1,只需判断 AB=IAB=IBA=IBA=I 中的一个条件就可判定逆矩阵,要比定义简单一些。

利用初等变换计算逆矩阵:写出增广矩阵 (AI)(A\mid I), 用初等行变换把左边矩阵 AA 处化为单位矩阵 II ,则右边出来的就是逆矩阵A1A^{-1},示意如下:

(AI)(IA1)(A\mid I)\xrightarrow{}(I\mid A^{-1})

同样,利用初等列变换计算逆矩阵的示意如下

[AI][IA1]\begin{bmatrix}A\\I\end{bmatrix}\xrightarrow{}\begin{bmatrix}I\\A^{-1}\end{bmatrix}

示例:解矩阵方程

[101111211][x1y1x2y2x3y3]=[110110]\begin{bmatrix}1&0&1\\-1&1&1\\2&-1&1\end{bmatrix} \begin{bmatrix}x_1&y_1\\x_2&y_2\\x_3&y_3\\\end{bmatrix}= \begin{bmatrix}1&1\\0&1\\-1&0\\\end{bmatrix}

解:系数矩阵可逆的矩阵方程 AX=BAX=B ,解为X=A1BX=A^{-1}B 。实际中,不必求逆矩阵,可使用一系列初等变换求解,即系数矩阵和常数项做同样的变换 P=A1P=A^{-1}。图示如下

(AB)(IX)(A\mid B)\xrightarrow{}(I\mid X)

本例计算过程如下

[101111110121110][100310105200120]\begin{bmatrix} \begin{array}{ccc:cc} 1&0&1&1&1\\ -1&1&1&0&1\\ 2&-1&1&-1&0 \end{array} \end{bmatrix}\to \begin{bmatrix} \begin{array}{ccc:cc} 1&0&0&3&1\\ 0&1&0&5&2\\ 0&0&1&-2&0 \end{array} \end{bmatrix}

[x1y1x2y2x3y3]=[315220]\begin{bmatrix}x_1&y_1\\x_2&y_2\\x_3&y_3\end{bmatrix}= \begin{bmatrix}3&1\\5&2\\-2&0\end{bmatrix}

矩阵的秩

行空间:矩阵A=(r1,r2,,rm)TA=(\mathbf r_1,\mathbf r_2,\cdots,\mathbf r_m)^T 的所有行向量张成的空间称为 AA 的行空间,记为

row A=span{r1,r2,,rm}\text{row }A=\text{span}\{\mathbf r_1,\mathbf r_2,\cdots,\mathbf r_m\}

若两个矩阵 AABB 行等价,则它们的的行空间相同。若 BB 是阶梯型矩阵,则 BB 的非零行构成 row B\text{row }B 的一组基,同时也是row A\text{row }A 的一组基。

证明:若 BB 是由 AA 经行变换得到的,则 BB 的行是AA 的行的线性组合,于是 BB 的行的任意线性组合自然是 AA 的行的线性组合,从而 BB 的行空间包含于 AA 的行空间。因为行变换可逆,同理知 AA 的行空间是 BB 的行空间的子集,从而这两个空间相同。若 BB 是一个阶梯形矩阵,则其非零行是线性无关的,这是因为任何一个非零行均不为它下面的非零行的线性组合,于是 BB 的非零行构成 BB 的行空间的一组基,当然也是 AA 的行空间的一组基。

例:分别求矩阵 AA 的行空间、列空间和零空间的基

A=[258017135153111971171353]A=\begin{bmatrix}-2&-5&8&0&-17\\1&3&-5&1&5\\3&11&-19&7&1\\1&7&-13&5&-3\end{bmatrix}

解:为了求行空间和列空间的基,行化简AA成阶梯形

A[135150122700042000000]=BA\to \begin{bmatrix}1&3&-5&1&5\\0&1&-2&2&-7\\0&0&0&-4&20\\0&0&0&0&0\end{bmatrix}=B

矩阵 BB 的前 3 行构成BB的行空间的一个基,也是AA的行空间的一组基。

row A\text{row }A 的基:(1,3,5,1,5),(0,1,2,2,7),(0,0,0,4,20)(1,3,-5,1,5),(0,1,-2,2,-7),(0,0,0,-4,20)

对列空间,BB 的主元列在第1,2和4列,从而 AA 的第1,2和4列构成 col A\text{col }A 的一组基。

col A\text{col }A 的基:(2,1,3,1)T,(5,3,11,7)T,(0,1,7,5)T(-2,1,3,1)^T,(-5,3,11,7)^T,(0,1,7,5)^T

对于核空间,需要进一步行变换得简化阶梯型矩阵

B[10101012030001500000]=CB\to\begin{bmatrix}1&0&1&0&1\\0&1&-2&0&3\\0&0&0&1&-5\\0&0&0&0&0\end{bmatrix}=C

方程 Ax=0A\mathbf x=0 的解空间等价于 Cx=0C\mathbf x=0 的解空间,即

{x1+x3+x5=0x22x3+3x5=0x45x5=0\begin{cases} x_1+x_3+x_5=0 \\ x_2-2x_3+3x_5=0 \\ x_4-5x_5=0 \end{cases}

所以

[x1x2x3x4x5]=x3[12100]+x5[13051]\begin{bmatrix}x_1\\x_2\\x_3\\x_4\\x_5\end{bmatrix}= x_3\begin{bmatrix}-1\\2\\1\\0\\0\end{bmatrix}+ x_5\begin{bmatrix}-1\\-3\\0\\5\\1\end{bmatrix}

kerA\ker A 的基:(1,2,1,0,0)T,(1,3,0,5,1)T(-1,2,1,0,0)^T,(-1,-3,0,5,1)^T

通过观察可见,与 col A\text{col }A 的基不同,row A\text{row }AkerA\ker A 的基与AA 中的元素没有直接的关系。

定理:对于 m×nm\times n 维矩阵 AA

  1. dim(row A)=dim(col A)=rank A\dim(\text{row }A)=\dim(\text{col }A)=\text{rank }A
  2. rank A+dim(kerA)=n\text{rank }A+\dim(\ker A)=n

证明:rank A\text{rank }AAA中主元列的个数,也是AA的等价阶梯形矩阵BB中主元列的个数。进一步,因为 BB 的每个主元都对应一个非零行,同时这些非零行构成 AA 的行空间的一组基,所以 AA 的秩等于 row A\text{row }A 的维数。由于 kerA\ker A 的维数等于方程 Ax=0A\mathbf x=0 中自由变量的个数,换句话说, kerA\ker A 的维数是 AA 中非主元列的个数。上面的定理证闭。

性质

  1. 矩阵的秩在初等变换下保持不变
  2. 矩阵的列向量组的秩等于行向量组的秩
  3. rank(A+B)rank(A)+rank(B)\text{rank}(A+B)\leqslant \text{rank}(A)+\text{rank}(B)
  4. rank(kA)=rank(A)\text{rank}(kA)=\text{rank}(A)
  5. rank(AB)min{rank(A),rank(B)}\text{rank}(AB)\leqslant \min\{\text{rank}(A),\text{rank}(B)\}

广义逆矩阵

对于非其次线性方程组 Ax=bA\mathbf x=\mathbf b ,当 AA 可逆时,则方程组存在唯一解 x=A1b\mathbf x=A^{-1}\mathbf b,通常矩阵 AA 是任意的 m×nm\times n 矩阵,不可逆的,这就促使人们去推广逆矩阵的概念,引进某种具有普通逆矩阵类似性质的矩阵 GG,使得方程组的解仍可表示为 x=Gb\mathbf x=G\mathbf b 这种简单的形式。

  • AGA=AAGA=A,则 Ax=AGAx=A(Gb)=bA\mathbf x=AGA\mathbf x=A(G\mathbf b)=\mathbf b,于是GbG\mathbf b 是方程的解;
  • GAG=GGAG=G,由于 GAx=GbGA\mathbf x=G\mathbf b,所以 GAx=GAGAx=GA(Gb)=GbGA\mathbf x=GAGA\mathbf x=GA(G\mathbf b)=G\mathbf b,于是GbG\mathbf b 是方程的解;

对于m×nm\times n 维矩阵 AA,若存在 n×mn\times m 维矩阵 GG 满足以下 M-P 方程
(1) AGA=AAGA=A
(2) GAG=GGAG=G
(3) (AG)T=AG(AG)^T=AG
(4) (GA)T=GA(GA)^T=GA

的全部或一部分,则称 GGAA 的一个广义逆矩阵。若 GG 满足全部 M-P 方程,则称 GGAA 的 Moore-Penrose 广义逆矩阵,简称M-P 广义逆矩阵,也称为伪逆矩阵,记为 A+A^+。事实上,只有伪逆矩阵存在且唯一,其他各类广义逆矩阵都不唯一。

性质

  1. (A+)+=A(A^+)^+=A
  2. (AT)+=(A+)T(A^T)^+=(A^+)^T
  3. rank A+=rank A\text{rank }A^+=\text{rank }A

若非其次线性方程组 Ax=bA\mathbf x=\mathbf b 有解,则解为

x=A+b+(IA+A)c\mathbf x=A^+\mathbf b+(I-A^+A)\mathbf c

其中 c\mathbf c 是维数与 x\mathbf x 的维数相同的任意向量。显然,当 AA 可逆时,x=A1b+(IA1A)c=A1b\mathbf x=A^{-1}\mathbf b+(I-A^{-1}A)\mathbf c=A^{-1}\mathbf b

求伪逆矩阵的一个方法是利用奇异值分解 A=UΣVTA=U\Sigma V^T 。由于 Λr\Lambda_r 的对角线元素非零,所以 Λr\Lambda_r 可逆,可求得伪逆为

A+=VrΛr1UrTA^+=V_r\Lambda_r^{-1} U^T_r

线性空间

线性空间

Grant: 普适的代价是抽象

仔细分析就会发现,关于向量空间的一切概念及有关定理都不依赖于向量的具体表现形式(有序数组),也不依赖于向量加法、数乘的具体计算式,而只依赖于如下两点:

  1. 向量的加法与数乘运算封闭;
  2. 加法、数乘满足八条运算法则。

这一事实告诉我们:可以把向量的有序数组这一具体表达形式及加法、数乘的具体计算式这些非本质的东西拋弃 ,只把最根本的八条运算法则保留下来。这时它们就不能从理论上给予证明,而要当作公理加以承认。这样,我们就形成了本章的核心概念,也是线性代数这门学科的基本研究对象:数域上的抽象线性空间。

接下来,把向量空间的概念从理论上加以概括和抽象,就得到线性空间的一般性概念,它具有更大的普遍性,应用范围也更广。

线性空间:设 VV 是非空集合,F\mathbb F 是一个数域。对 VV 中的元素定义两种运算:加法 v+w(v,wV)\mathbf v+\mathbf w\quad (\mathbf v,\mathbf w\in V) 和数乘 cv(cF,vV)c\mathbf v\quad(c\in\mathbb F,\mathbf v\in V) 。若 VV 对于加法和数乘运算封闭:

  1. v,wV, v+wV\forall\mathbf v,\mathbf w\in V,\ \mathbf v+\mathbf w\in V
  2. cF,vV, cvV\forall c\in\mathbb F,\mathbf v\in V,\ c\mathbf v\in V

u,v,wV\forall\mathbf u,\mathbf v,\mathbf w\in V and a,bF\forall a,b\in\mathbb F 满足以下8条性质:

  1. 加法交换律:v+w=w+v\mathbf v+\mathbf w=\mathbf w+\mathbf v
  2. 加法结合律:u+(v+w)=(u+v)+w\mathbf u+(\mathbf v+\mathbf w)=(\mathbf u+\mathbf v)+\mathbf w
  3. 加法单位元:0V, 0+v=v\exists 0\in V,\ 0+\mathbf v=\mathbf v
  4. 加法逆元:(v)V, v+(v)=0\exists (-\mathbf v)\in V,\ \mathbf v+(-\mathbf v)=0
  5. 数乘结合律:a(bv)=(ab)va(b\mathbf v)=(ab)\mathbf v
  6. 数乘分配律:a(v+w)=av+awa(\mathbf v+\mathbf w)=a\mathbf v+a\mathbf w
  7. 数乘分配律:(a+b)v=av+bv(a+b)\mathbf v=a\mathbf v+b\mathbf v
  8. 数乘单位元:1F, 1v=v\exists 1\in\mathbb F,\ 1\mathbf v=\mathbf v

则称集合 VV 为数域 F\mathbb F 上的线性空间(或向量空间)。线性空间中的元素统称为向量,线性空间中的加法和数乘运算称为线性运算。

注意

  1. 线性空间的概念是集合与运算二者的结合。同一个集合,若定义两种不同的线性运算,就构成不同的线性空间。
  2. 线性空间中的向量不一定是有序数组。它已不再具有三维几何空间中向量的几何直观意义。
  3. 线性运算不一定是有序数组的加法及数乘运算。

然后,之前向量空间的一切结论和性质都可同步到线性空间。

例 1:实数域上次数不大于 nn 的全体多项式构成线性空间,记为 R[x]n\R[x]_n
例 2:全体 m×nm×n 实矩阵构成线性空间,记为 Rm×n\R^{m\times n}
例 3:全体函数的集合构成线性空间,也称函数空间。

性质

  1. 零元素是唯一的;
  2. 任一元素的负元素是唯一的;
  3. 如果 cv=0c\mathbf v=0,则 v=0\mathbf v=0c=0c=0

子空间

子空间:设 UU 是向量空间 VV 的一个非空子集,如果UU中的线性运算封闭,则 UU 也是向量空间,称为 VV 的子空间

子空间的和:设 U1,U2U_1,U_2 为线性空间 VV 的两个子空间,则

U1+U2={u1+u2u1U1,u2U2}U_1+U_2=\{\mathbf u_1+\mathbf u_2\mid \mathbf u_1\in U_1,\mathbf u_2\in U_2\}

称为子空间 U1,U2U_1,U_2(sum of subspaces) 。两个子空间的和是分别由两个子空间中各任取一个向量相加所组成的集合。注意 U1+U2U_1+U_2U1U2U_1\cup U_2 不同,后者只是把两个子空间的向量简单地聚拢在一起,成为一个新的集合而已,它们的向量之间并不相加,在一般情况下,U1U2U1+U2U_1\cup U_2\neq U_1+U_2

U1+U2U_1+U_2 是包含子空间 U1,U2U_1,U_2 的最小子空间。

U1=span{a1,,ap},U2=span{b1,,bq}U_1=\text{span}\{\mathbf a_1,\cdots,\mathbf a_p\},\quad U_2=\text{span}\{\mathbf b_1,\cdots,\mathbf b_q\}

U1+U2=span{a1,,ap,b1,,bq}U_1+U_2=\text{span}\{\mathbf a_1,\cdots,\mathbf a_p,\mathbf b_1,\cdots,\mathbf b_q\}

维数公式

dim(U1+U2)=dimU1+dimU2dim(U1U2)\dim(U_1+U_2)=\dim U_1+\dim U_2-\dim(U_1\cap U_2)

直和:若任意向量 uU1+U2\mathbf u\in U_1+U_2 能唯一的表示成

u=u1+u1(u1U1,u2U2)\mathbf u=\mathbf u_1+\mathbf u_1\quad (\mathbf u_1\in U_1,\mathbf u_2\in U_2)

则称子空间 U1+U2U_1+U_2直和(direct sum),记作 U1U2U_1\oplus U_2

U1+U2U_1+U_2 是直和     \iff U1U2={O}U_1\cap U_2=\{O\}

坐标与同构

类似之前向量空间讨论过的,确定线性空间 VV 的一组基后,对于任一向量 vV\mathbf v\in V 可唯一线性表示为

v=x1a1+x2a2++xnan\mathbf v=x_1\mathbf a_1+x_2\mathbf a_2+\cdots+x_n\mathbf a_n

向量的坐标为

[x1x2xn]or(x1,x2,,xn)\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}\quad \text{or}\quad (x_1,x_2,\cdots,x_n)

建立了坐标之后,nn维线性空间 VnV_n 中的抽象元素与 nn 维向量空间 Rn\R^n 中的具体数组之间就有一一对应的关系,并且保持了线性组合(线性运算)的一一对应。

v(v1,v2,,vn)T,w(w1,w2,,wn)T\mathbf v\lrarr (v_1,v_2,\cdots,v_n)^T,\quad \mathbf w\lrarr (w_1,w_2,\cdots,w_n)^T,则

  1. v+w(v1,v2,,vn)T+(w1,w2,,wn)T\mathbf v+\mathbf w\lrarr (v_1,v_2,\cdots,v_n)^T+(w_1,w_2,\cdots,w_n)^T
  2. cvc(v1,v2,,vn)Tc\mathbf v \lrarr c(v_1,v_2,\cdots,v_n)^T

因此可以说 VnV_nRn\R^n 有相同的结构。

一般地,设 VVUU 是两个线性空间,如果在它们的元素之间有一一对应关系,且这个对应关系保持线性组合的对应,那么就说线性空间 VVUU 同构(isomorphism)。

显然,任何实数域上的nn维线性空间都与 Rn\R^n 同构,即维数相同的线性空间都同构,从而可知,线性空间的结构完全被它的维数所决定

同构的概念除元素一一对应外,主要是保持线性运算的对应关系。因此, VnV_n 中的抽象的线性运算就可转化为 Rn\R^n 中的线性运算,并且 Rn\R^n 中凡是涉及线性运算的性质就都适用于 VnV_n

线性变换与矩阵

变换(transformation)是线性空间的一种映射

T: vT(v)T:\quad \mathbf v\mapsto T(\mathbf v)

称 T(v)T(\mathbf v) 为向量 v\mathbf v 在映射 TT 下的,而称 v\mathbf v 为 T(v)T(\mathbf v) 在映射 TT 下的原像

满足下列两条性质的变换称为线性变换(linear transformation)

  1. 可加性(additivity):T(v+w)=T(v)+T(w)T(\mathbf v+\mathbf w)=T(\mathbf v)+T(\mathbf w)
  2. 伸缩性(scaling):T(cv)=cT(v)T(c\mathbf v)=cT(\mathbf v)

VV 是数域 R\R 上的nn 维线性空间,e1,e2,,en\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_nVV 的一组基。基向量ej\mathbf e_j 是单位阵 IjI_j 的第 jj 列。对于任一向量 vV\mathbf v\in V ,设

v=[x1x2xn]=x1e1+x2e2++xnen\mathbf v=\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix}=x_1\mathbf e_1+x_2\mathbf e_2+\cdots+x_n\mathbf e_n

对于线性变换 TT,由线性变换的基本性质知

T(v)=T(x1e1+x2e2++xnen)=x1T(e1)+x2T(e2)++xnT(en)=[T(e1)T(e2)T(en)][x1x2xn]=Av\begin{aligned} T(\mathbf v)&=T(x_1\mathbf e_1+x_2\mathbf e_2+\cdots+x_n\mathbf e_n) =x_1T(\mathbf e_1)+x_2T(\mathbf e_2)+\cdots+x_nT(\mathbf e_n) \\ &=\begin{bmatrix}T(\mathbf e_1)&T(\mathbf e_2)&\cdots&T(\mathbf e_n)\end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix} =A\mathbf v \end{aligned}

矩阵 AA 称为线性变换 TT 在基 e1,e2,,en\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_n 下的矩阵。其中,矩阵 AA 的第 jj 列是基向量ej\mathbf e_j 的像 T(ej)T(\mathbf e_j)显然,矩阵 AA 由基的像唯一确定

示例:函数是一种特殊的线性空间,定义一个映射:

D=ddx:f(x)f(x)D=\frac{\mathrm d}{\mathrm dx}:\quad f(x)\mapsto f'(x)

由导数的性质可知,DD 是函数空间中的一个线性变换,称为微分变换

在多项式空间 R[x]n\R[x]_n 内,对任一多项式

f(x)=a0+a1x1+a2x2++anxnf(x)=a_0+a_1x_1+a_2x^2+\cdots+a_nx^n

在基 1,x,x2,,xn1,x,x^2,\cdots,x^n 下的坐标表达式为

f(x)=(1,x,x2,,xn)[a0a1a2an]f(x)=(1,x,x^2,\cdots,x^n)\begin{bmatrix}a_0\\a_1\\a_2\\\vdots\\a_n\end{bmatrix}

基向量 1,x,x2,,xn1,x,x^2,\cdots,x^n 的线性变换

D1=0,Dx=1,Dx2=2x,Dxn=nxn1\begin{aligned}&D1=0,\\&D x=1,\\&Dx^2=2x,\\&\cdots\\&Dx^n=nx^{n-1}\end{aligned}

DD 在基 1,x,x2,,xn1,x,x^2,\cdots,x^n 下的矩阵为

D=[01000020000n0000]D=\begin{bmatrix} 0&1&0&\cdots&0\\ 0&0&2&\cdots&0\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 0&0&0&\cdots&n\\ 0&0&0&\cdots&0\end{bmatrix}

Df(x)Df(x) 在基 1,x,x2,,xn1,x,x^2,\cdots,x^n 下的坐标为

Df(x)=[01000020000n0000][a0a1a2an]=[a12a23a30]Df(x)=\begin{bmatrix} 0&1&0&\cdots&0\\ 0&0&2&\cdots&0\\ \vdots&\vdots&\vdots&\ddots&\vdots\\ 0&0&0&\cdots&n\\ 0&0&0&\cdots&0\end{bmatrix} \begin{bmatrix}a_0\\a_1\\a_2\\\vdots\\a_n\end{bmatrix}= \begin{bmatrix}a_1\\2a_2\\3a_3\\\vdots\\0\end{bmatrix}

Df(x)=a1+2a2x+3a3x2++nanxn1Df(x)=a_1+2a_2x+3a_3x^2+\cdots+na_nx^{n-1},和直接求导的形式一致。

基变换与坐标变换

Grant:坐标系的建立基于所选的基向量

以二维空间为例,Grant 选用标准坐标系下的基向量,坐标值为

i=[10],j=[01]\mathbf i=\begin{bmatrix} 1 \\ 0 \end{bmatrix},\quad \mathbf j=\begin{bmatrix} 0 \\ 1 \end{bmatrix}

而 Jennifer 使用另外一组基向量 i,j\mathbf i',\mathbf j',在 Grant 的坐标系下的坐标表示为

i=[ac],j=[bd]\mathbf i'=\begin{bmatrix} a \\ c \end{bmatrix},\quad \mathbf j'=\begin{bmatrix} b \\ d \end{bmatrix}

实际上在各自的坐标系统,基向量均为 (1,0),(0,1)(1,0),(0,1) 。特别的,两个坐标系原点的定义是一致的。

同一个向量在不同基向量下表示不同。在 Jennifer 的坐标系中,向量 v=[xy]\mathbf v=\begin{bmatrix} x' \\ y' \end{bmatrix},可以写成基向量的线性组合形式

v=xi+yj\mathbf v=x'\mathbf i'+y'\mathbf j'

在 Grant 坐标系下的表示

v=x[ac]+y[bd]\mathbf v=x'\begin{bmatrix} a \\ c \end{bmatrix}+y'\begin{bmatrix} b \\ d \end{bmatrix}

进一步,因为是线性变换,所以将其转化为矩阵乘法

v=[abcd][xy]=[xy]\mathbf v=\begin{bmatrix} a&b \\ c&d \end{bmatrix}\begin{bmatrix} x' \\ y' \end{bmatrix}=\begin{bmatrix} x \\ y \end{bmatrix}

[xy]\begin{bmatrix} x \\ y \end{bmatrix}[xy]\begin{bmatrix} x' \\ y’ \end{bmatrix} 实际是同一个向量,只不过是在不同基下的坐标。特别的,这里的 [abcd]\begin{bmatrix} a&b \\ c&d \end{bmatrix} 称为基变换矩阵,意味着同一个向量从 Jennifer 的坐标到 Grant 的坐标的映射,即以我们的视角描述 Jennifer 的向量。

进一步,我们将用基向量 i,j\mathbf i',\mathbf j' 描述的空间称为 “Jennifer’s grid”,用基向量 i,j\mathbf i,\mathbf j 描述的空间称为 “Grant‘s grid”。在几何上,基变换矩阵表示的是将 Jennifer’s grid 在数值上用 Grant 的语言来描述。而逆变换则是将 Grant 的语言变成 Jennifer 的语言。

[xy]=[abcd]1[xy]\begin{bmatrix} x' \\ y' \end{bmatrix}=\begin{bmatrix} a&b \\ c&d \end{bmatrix}^{-1}\begin{bmatrix} x \\ y \end{bmatrix}

现讨论 nn维线性空间 VnV_n 中的情形。任取 nn 个线性无关的向量都可以作为 VnV_n 的一组基,对于不同的基,同一个向量的坐标是不同的。接下来,寻找同一个向量在不同基下的坐标之间的关系。

基变换公式:设矩阵 A=(a1,a2,,an)A=(\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n) 的列向量与 B=(b1,b2,,bn)B=(\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n) 的列向量是nn维线性空间 VnV_n 的两组基,则它们可以互相线性表示。若

{b1=p11a1+p21a2++pn1anb2=p12a1+p22a2++pn2anbn=p1na1+p2na2++pnnan\begin{cases} \mathbf b_1=p_{11}\mathbf a_1+p_{21}\mathbf a_2+\cdots+p_{n1}\mathbf a_n \\ \mathbf b_2=p_{12}\mathbf a_1+p_{22}\mathbf a_2+\cdots+p_{n2}\mathbf a_n \\ \cdots \\ \mathbf b_n=p_{1n}\mathbf a_1+p_{2n}\mathbf a_2+\cdots+p_{nn}\mathbf a_n \\ \end{cases}

利用分块矩阵的乘法形式,可将上式记为

B=APB=AP

称为基变换公式。其中,矩阵

P=[p11p12p1np21p22p2npn1p2npnn]P=\begin{bmatrix} p_{11}&p_{12}&\cdots&p_{1n} \\ p_{21}&p_{22}&\cdots&p_{2n} \\ \vdots&\vdots&\ddots&\vdots \\ p_{n1}&p_{2n}&\cdots&p_{nn} \\ \end{bmatrix}

称为由基 A={a1,a2,,an}A=\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n\}B={b1,b2,,bn}B=\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n\}过渡矩阵(transition matrix)。显然 P1P^{-1} 为由基B={b1,b2,,bn}B=\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n\}到基A={a1,a2,,an}A=\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n\}的过渡矩阵。

坐标变换公式:设线性空间 VV 中的元素 v\mathbf v 在基 A={a1,a2,,an}A=\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n\} 下的坐标为 vA\mathbf v_A ,在基 B={b1,b2,,bn}B=\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n\} 下的坐标为 vB\mathbf v_B ,则有

vA=PvB\mathbf v_A=P\mathbf v_B

其中矩阵 PP 为由基 A={a1,a2,,an}A=\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n\}B={b1,b2,,bn}B=\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n\} 的过渡矩阵。

计算过渡矩阵:对于基变换公式 B=APB=AP ,可知过渡矩阵 P=A1BP=A^{-1}B 。写出增广矩阵 (AB)(A\mid B) ,用初等行变换把左边矩阵 AA 处化为单位矩阵 II ,则右边出来的就是过渡矩阵PP,示意如下:

(AB)(IA1B)(A\mid B)\xrightarrow{}(I\mid A^{-1}B)

例:设 b1=[91],b2=[51],c1=[14],c2=[35]\mathbf b_1=\begin{bmatrix} -9 \\ 1 \end{bmatrix},\mathbf b_2=\begin{bmatrix} -5 \\ -1 \end{bmatrix},\mathbf c_1=\begin{bmatrix} 1 \\ -4 \end{bmatrix},\mathbf c_2=\begin{bmatrix} 3 \\ -5 \end{bmatrix} 考虑 R2\R^2 中的基 B={b1,b2},C={c1,c2}B=\{\mathbf b_1,\mathbf b_2\},C=\{\mathbf c_1,\mathbf c_2\} ,求 BBCC 的过渡矩阵。

解:设基向量 c1,c2\mathbf c_1,\mathbf c_2 在基 BB 下的坐标分别为

[c1]B=[x1x2],[c2]B=[y1y2][\mathbf c_1]_B=\begin{bmatrix} x_1 \\ x_2 \end{bmatrix},\quad [\mathbf c_2]_B=\begin{bmatrix} y_1 \\ y_2 \end{bmatrix}

由坐标的定义,可知

(b1,b2)[x1x2]=c1,(b1,b2)[y1y2]=c2(\mathbf b_1,\mathbf b_2)\begin{bmatrix} x_1 \\ x_2 \end{bmatrix}=\mathbf c_1,\quad (\mathbf b_1,\mathbf b_2)\begin{bmatrix} y_1 \\ y_2 \end{bmatrix}=\mathbf c_2

为了同步解出这两个方程组,使用增广矩阵 (BC)(B\mid C) 求解

(b1,b2c1,c2)=[95131145][103/22015/23](\mathbf b_1,\mathbf b_2\mid \mathbf c_1,\mathbf c_2)= \begin{bmatrix}\begin{array}{cc:cc} -9&-5&1&3 \\ 1&-1&-4&-5 \end{array}\end{bmatrix}\to \begin{bmatrix}\begin{array}{cc:cc} 1&0&-3/2&-2 \\0&1&5/2&3 \end{array}\end{bmatrix}

因此, 由BBCC 的过渡矩阵

P=[3/225/23]P=\begin{bmatrix} -3/2&-2 \\5/2&3 \end{bmatrix}

特征值和特征向量

本章特征值和特征向量的概念只在方阵的范畴内探讨。

相似矩阵

Grant:线性变换对应的矩阵依赖于所选择的基。

一般情况下,同一个线性变换在不同基下的矩阵不同。仍然以平面线性变换为例,Grant 选用标准坐标系下的基向量 i,j\mathbf i,\mathbf j ,线性变换 TT 对应的矩阵为 AA ,而 Jennifer 使用另外一组基向量 i,j\mathbf i',\mathbf j'

我们已经知道矩阵 AA 是追踪基向量i,j\mathbf i,\mathbf j 变换后的位置得到的,同样的线性变换在i,j\mathbf i',\mathbf j' 下的表示,也需要追踪基向量 i,j\mathbf i',\mathbf j' 变换后的位置。具体过程如下:

对于 Jennifer 视角下的向量 v=[xy]\mathbf v=\begin{bmatrix} x' \\ y' \end{bmatrix}

  1. 同样的向量,用 Grant 的坐标系表示的坐标为 P[xy]P\begin{bmatrix} x' \\ y' \end{bmatrix} ,其中PP 为基变换矩阵;
  2. 用 Grant 的语言描述变换后的向量 AP[xy]AP\begin{bmatrix} x' \\ y' \end{bmatrix}
  3. 将变换后的结果变回 Jennifer 的坐标系 P1AP[xy]P^{-1}AP\begin{bmatrix} x' \\ y' \end{bmatrix}

于是,我们得到同一个线性变换 TT 在 Jennifer 的坐标系下对应的矩阵为 P1APP^{-1}AP

这个结果暗示着数学上的转移作用,中间的矩阵 AA 代表 Grant 坐标系下所见到的变换,PPP1P^{-1} 两个矩阵代表着转移作用(基变换矩阵),也就是在不同坐标系之间进行转换,实际上也是视角上的转化。P1APP^{-1}AP 仍然代表同一个变换,只不过是从别的坐标系的角度来看。

下面给出严格的数学证明。在线性空间 VV 中取两组基,基变换公式为
(b1,b2,,bn)=(a1,a2,,an)P(\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n)=(\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)P

设线性变换 TT 在这两组基下的矩阵分别为 AABB 。那么

T(a1,a2,,an)=(a1,a2,,an)AT(b1,b2,,bn)=(b1,b2,,bn)BT(\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)=(\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)A \\ T(\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n)=(\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n)B

取向量 vV\mathbf v\in V ,在两组基下的坐标向量分别为 x,x\mathbf x,\mathbf x',根据坐标变换公式有 x=Px\mathbf x=P\mathbf x'

T(v)=(b1,b2,,bn)Bx=(a1,a2,,an)Ax=(b1,b2,,bn)P1APx\begin{aligned} T(\mathbf v)&=(\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n)B\mathbf x'\\ &=(\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)A\mathbf x \\ &=(\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n)P^{-1}AP\mathbf x' \end{aligned}

因为 b1,b2,,bn\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_n 线性无关,所以

B=P1APB=P^{-1}AP

因此, BBP1APP^{-1}AP 表示同一种线性变换在不同基向量下的表示。

相似矩阵:设 A,BA,B 都是 nn 阶矩阵,若有 nn 阶可逆矩阵 PP ,使

B=P1APB=P^{-1}AP

则称矩阵 AABB 相似(similar),记作 ABA\sim B

用初等行变换计算相似矩阵:计算相似矩阵 P1APP^{-1}AP 的一种有效方法是先计算 APAP ,然后用行变换将增广矩阵 (PAP)(P\mid AP) 化为 (IP1AP)(I\mid P^{-1}AP),这样就不需要单独计算P1P^{-1}了 。

特征值与特征向量

Grant:行列式告诉你一个变换对面积的缩放比例,特征向量则是在变换中保留在他所张成的空间中的向量,这两者都是暗含于空间中的性质,坐标系的选择并不会改变他们最根本的值。

我们已经知道,对角阵对于矩阵运算来说最为简单。若线性变换 TT 在一组基下的矩阵为 AA,为便于应用,自然考虑是否存在对角阵 Λ\Lambda 和矩阵 AA 相似,从而使用这种最简单的形式计算线性变换。

假设有对角阵 ΛA\Lambda\sim A,即存在可逆矩阵 PP ,使得

P1AP=Λ=diag(λ1,λ2,,λn)P^{-1}AP=\Lambda=\text{diag}(\lambda_1,\lambda_2,\cdots,\lambda_n)

将矩阵 PP 按列分块 P=(x1,x2,,xn)P=(\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n) ,则上式等价于

A(x1,x2,,xn)=(x1,x2,,xn)ΛA(\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n)=(\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n)\Lambda

按分块矩阵的乘法,上式可写成

Ax1=λ1x1Ax2=λ1x2Axn=λnxnA\mathbf x_1=\lambda_1\mathbf x_1\\ A\mathbf x_2=\lambda_1\mathbf x_2\\ \cdots\\ A\mathbf x_n=\lambda_n\mathbf x_n

根据假定 PP 可逆,其列向量非零,因此我们希望找到符合条件的 λj,xj\lambda_j,\mathbf x_j

定义:对于矩阵 AA ,如果存在数 λ\lambda 和非零向量 u\mathbf u,使得

Au=λuA\mathbf u=\lambda\mathbf u

则称λ\lambda 是矩阵 AA 的一个特征值(eigenvalue),u\mathbf u 是特征值 λ\lambda 的一个特征向量(eigenvector)。

(1) 特征向量必须是非零向量;
(2) 特征值和特征向量是相伴出现的。

事实上,对于任意非零常数cccuc\mathbf u 都是特征值 λ\lambda 的特征向量,这是因为

if Au=λu, then A(cu)=λ(cu)\text{if }A\mathbf u=\lambda\mathbf u,\text{ then }A(c\mathbf u)=\lambda (c\mathbf u)

由于矩阵和线性变换是一一对应的,我们可以借助几何直观理解这个定义。

  • 特征向量在变换过程中只受到拉伸或者压缩
  • 特征值描述对应特征向量经过线性变换后的缩放程度

对于三维空间中的旋转,如果能够找到对应的特征向量,也即能够留在它所张成的空间中的向量,那么就意味着我们找到了旋转轴。特别地,这就意味着将一个三维旋转看成绕这个特征向量旋转一定角度,要比考虑相应的矩阵变换要直观。此时对应的特征值为1,因为旋转并不改变任何一个向量,所以向量的长度保持不变。

由定义知道,求解特征向量就是寻找非零向量 u\mathbf u 使得

(AλI)u=0(A-\lambda I)\mathbf u=0

显然,u=0\mathbf u=0​ 时恒成立,但是我们要寻找的是非零解。 齐次矩阵方程有非零解的充分必要条件是系数矩阵的行列式为零,即

det(AλI)=0\det(A-\lambda I)=0

也就是系数矩阵所代表的线性变换将空间压缩到更低的维度。上式称为矩阵 AA特征方程(characteristic equation)。矩阵 AA 的特征值就是它的特征方程的根。

多项式

f(λ)=det(AλI)f(\lambda)=\det(A-\lambda I)

称为矩阵 AA特征多项式(characteristic polynomial)。

由上面的讨论可以得出求nn阶矩阵AA的特征值与特征向量的简要步骤

  1. 求出 AA 的特征多项式,即计算nn阶行列式 det(AλI)\det(A-\lambda I)
  2. 求解特征方程 det(AλI)=0\det(A-\lambda I)=0 ,得到nn个根,即为AAnn 个特征值;
  3. 对求得的每个特征值 λi\lambda_i 分别带入 (AλI)x=0(A-\lambda I)\mathbf x=0 求其非零解,便是对应的特征向量。

示例:求矩阵 A=[1232]A=\begin{bmatrix}1&2\\3&2\end{bmatrix} 的特征值和特征向量。

解: AA 的特征多项式为

det(AλI)=1λ232λ=λ23λ4=(λ4)(λ+1)\begin{aligned}\det(A-\lambda I)&=\begin{vmatrix}1-\lambda&2\\3&2-\lambda\end{vmatrix} \\ &=\lambda^2-3\lambda-4=(\lambda-4)(\lambda+1) \end{aligned}

因此 AA 的特征值为 λ1=4,λ2=1\lambda_1=4,\lambda_2=-1

λ1=4\lambda_1=4 带入矩阵方程 (AλI)x=0(A-\lambda I)\mathbf x=0 ,有

[3232][x1x2]=0[3232][3200]\begin{bmatrix}-3&2\\3&-2\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=0 \\ \begin{bmatrix}-3&2\\3&-2\end{bmatrix}\to\begin{bmatrix}3&-2\\0&0\end{bmatrix}

求得特征值 λ1=4\lambda_1=4 对应的一个特征向量 u1=c[23]\mathbf u_1=c\begin{bmatrix}2\\3\end{bmatrix}

λ1=1\lambda_1=-1 带入矩阵方程 (AλI)x=0(A-\lambda I)\mathbf x=0 ,有

[2233][x1x2]=0[2233][1100]\begin{bmatrix}2&2\\3&3\end{bmatrix}\begin{bmatrix}x_1\\x_2\end{bmatrix}=0 \\ \begin{bmatrix}2&2\\3&3\end{bmatrix}\to\begin{bmatrix}1&1\\0&0\end{bmatrix}

求得特征值 λ2=1\lambda_2=-1 对应的特征向量 u2=c[11]\mathbf u_2=c\begin{bmatrix}-1\\1\end{bmatrix}

性质

  1. 相似矩阵(同样的线性变换)有相同的特征多项式,从而有相同的特征值;
  2. 矩阵 AA 与其转置矩阵 ATA^T 有相同的特征值;
  3. 属于矩阵不同特征值的特征向量线性无关;
  4. 矩阵的所有特征值之和等于其主对角线元素之和(矩阵的迹);
  5. 矩阵的所有特征值之积等于矩阵的行列式;
  6. 三角阵的特征值是其主对角线元素;
  7. 矩阵乘积 ABABBABA 具有相同的非零特征值

证明:(性质1)设 ABA\sim B,即 B=P1APB=P^{-1}AP ,于是

det(BλI)=det(P1(AλI)P)=det(P1)det(AλI)det(P)=det(AλI)\begin{aligned} \det(B-\lambda I)&=\det(P^{-1}(A-\lambda I)P) \\ &=\det(P^{-1})\det(A-\lambda I)\det(P) \\ &=\det(A-\lambda I) \\ \end{aligned}

AABB 有相同的特征多项式,从而有相同的特征值

(性质4)设nn阶矩阵AA 的特征值为 λ1,λ2,,λn\lambda_1,\lambda_2,\cdots,\lambda_n。由于矩阵的特征值就是其特征方程的根,从而

f(λ)=det(AλI)=(λ1λ)(λ2λ)(λnλ)f(\lambda)=\det(A-\lambda I)=(\lambda_1-\lambda)(\lambda_2-\lambda)\cdots(\lambda_n-\lambda)

上式取 λ=0\lambda=0 ,有 f(0)=detA=λ1λ2λnf(0)=\det A=\lambda_1\lambda_2\cdots\lambda_n

(性质7)假设矩阵 AABB 分别是 m×nm\times nn×mn\times m 矩阵。

证法1:设 λ\lambdaABAB 的任一非零特征值,u\mathbf u 是这一特征值的特征向量,则 (AB)u=λu(AB)\mathbf u=\lambda\mathbf u ,等式两边同时左乘 BB

(BA)(Bu)=λ(Bu)(BA)(B\mathbf u)=\lambda(B\mathbf u)

又由于 ABu=λu0AB\mathbf u=\lambda\mathbf u\neq0 可知 Bu0B\mathbf u\neq 0 。所以 BuB\mathbf uBABA 关于特征值 λ\lambda 的特征向量。这也证明了λ\lambda 也是BABA 的特征值。

同理可证 BABA 的非零特征值也是ABAB 的特征值。这就证明了ABABBABA 具有相同的非零特征值。

证法2:易知

[ImAOIn][ABOBO][ImAOIn]=[OOBAB]\begin{bmatrix}I_m&-A\\O&I_n\end{bmatrix} \begin{bmatrix}AB&O\\B&O\end{bmatrix} \begin{bmatrix}I_m&A\\O&I_n\end{bmatrix}= \begin{bmatrix}O&O\\B&AB\end{bmatrix}

又由于

[ImAOIn][ImAOIn]=Im+n\begin{bmatrix}I_m&-A\\O&I_n\end{bmatrix} \begin{bmatrix}I_m&A\\O&I_n\end{bmatrix}= I_{m+n}

可知

[ABOBO][OOBBA]\begin{bmatrix}AB&O\\B&O\end{bmatrix}\sim \begin{bmatrix}O&O\\B&BA\end{bmatrix}

它们有相同的特征多项式,即

λndet(λImAB)=λmdet(λInBA)\lambda^n\det(\lambda I_m-AB)=\lambda^m\det(\lambda I_n-BA)

上式称为Sylvester降幂公式。这里表明,ABABBABA 的只相差了个 mnm-n 个零特征值,其余非零特征值相同。

特征基与对角化

由上节知道,特征值和特征向量定义的初衷是为了线性变换的相似对角化,即

P1AP=ΛP^{-1}AP=\Lambda

由定义的推理知道,矩阵 AA 的每个特征向量就是 PP 的一个列向量,而 PP 是矩阵 AA 的基向量到对角阵 Λ\Lambda 基向量的过渡矩阵。过渡矩阵 PP 也可看作对角阵 Λ\Lambda 的基向量组在矩阵 AA 基向量下的坐标,所以对基向量的限制条件也适用于特征向量组。

定理:矩阵 AnA_n 可以相似对角化的充要条件是 AnA_nnn 个线性无关的特征向量。此时,对角元素就是对应的特征值。

设矩阵AA的特征值与特征向量对应关系 Au1=λ1u1,Au2=λ2u2A\mathbf u_1=\lambda_1\mathbf u_1,\quad A\mathbf u_2=\lambda_2\mathbf u_2 ,令P=[u1,u2]P=[\mathbf u_1,\mathbf u_2]

AP=[λ1u1,λ2u2]=[u1,u2][λ100λ2]=PΛAP=[\lambda_1\mathbf u_1,\lambda_2\mathbf u_2]= [\mathbf u_1,\mathbf u_2] \begin{bmatrix} \lambda_1&0 \\ 0&\lambda_2 \end{bmatrix}= P\Lambda \\

PP 可逆,即 u1,u2\mathbf u_1,\mathbf u_2 线性无关,则

Λ=P1AP=[λ100λ2]\Lambda=P^{-1}AP=\begin{bmatrix} \lambda_1&0 \\ 0&\lambda_2 \end{bmatrix}

当特征向量的数量足够多时,这些特征向量就可以构成特征基(eigenbasis)。在特征基坐标系角度看,同一个线性变换只是伸缩变换(对角阵)。

特征基的坐标使用的是矩阵 AA 的基向量。

例:尝试将下列矩阵对角化

A=[133353331]A=\begin{bmatrix} 1&3&3 \\ -3&-5&-3 \\ 3&3&1 \end{bmatrix}

解:对角化工作可分为4步来完成

step 1:求出特征值。矩阵 AA 的特征方程为

det(AλI)=(λ1)(λ+2)2\det(A-\lambda I)=-(\lambda-1)(\lambda+2)^2

特征值是 λ=1\lambda=1λ=2\lambda=-2

step 2:求出线性无关的特征向量。对于 λ=1\lambda=1 的特征向量 u1=(1,1,1)T\mathbf u_1=(1,-1,1)^T

对于 λ=2\lambda=-2 的特征向量 u2=(1,1,0)T\mathbf u_2=(-1,1,0)^Tu3=(1,0,1)T\mathbf u_3=(-1,0,1)^T

可以验证 u1,u2,u3\mathbf u_1,\mathbf u_2,\mathbf u_3 是线性无关的。

step 3:使用特征向量构造过渡矩阵(向量的次序不重要)

P=[111110101]P=\begin{bmatrix} 1&-1&-1 \\ -1&1&0 \\ 1&0&1 \end{bmatrix}

step 4:使用对应的特征值构造对角阵(特征值的次序必须和矩阵PP的列选择的特征向量的次序一致)

Λ=[100020002]\Lambda=\begin{bmatrix} 1&0&0 \\ 0&-2&0 \\ 0&0&-2 \end{bmatrix}

可简单验证 AP=PΛAP=P\Lambda,这等价于验证当 PP 可逆时 Λ=P1AP\Lambda=P^{-1}AP

一些常见变换的特征值与特征向量列举如下

(1) 等比例缩放变换 [k00k]\begin{bmatrix}k &0\\0 &k\end{bmatrix} 的特征多项式为 (λk)2(\lambda-k)^2 ,有两个相等的特征值 λ=k\lambda=k ,但平面内任意非零向量都属于这个特征值的特征向量。

(2) 普通缩放变换 [k100k2]\begin{bmatrix}k_1 &0\\0 &k_2\end{bmatrix} 的特征多项式为 (λk1)(λk2)(\lambda-k_1)(\lambda-k_2) ,有两个特征值 λ1=k1,λ2=k2\lambda_1=k_1,\lambda_2=k_2 ,特征向量分别为 u1=[10],u2=[01]\mathbf u_1=\begin{bmatrix}1\\0\end{bmatrix},\mathbf u_2=\begin{bmatrix}0\\1\end{bmatrix}

(3) 旋转变换 [cosθsinθsinθcosθ]\begin{bmatrix}\cos\theta &-\sin\theta\\ \sin\theta &\cos\theta\end{bmatrix} 的特征多项式为 λ2+2λcosθ+1\lambda^2+2\lambda\cos\theta+1 ,有两个复特征值 λ1=cosθ+isinθ,λ2=cosθisinθ\lambda_1=\cos\theta+i\sin\theta,\lambda_2=\cos\theta-i\sin\theta ,对应两个复特征向量 u1=[1i],u2=[1i]\mathbf u_1=\begin{bmatrix}1\\-i\end{bmatrix},\mathbf u_2=\begin{bmatrix}1\\i\end{bmatrix}

值得注意的是,特征值出现虚数的情况一般对应于变换中的某一种旋转。

(4) 水平剪切变换 [1k01]\begin{bmatrix}1 &k\\0 &1\end{bmatrix} 的特征多项式为 (λ1)2(\lambda-1)^2 ,有两个相等的特征值 λ=1\lambda=1 ,只有一个特征向量 u1=[10]\mathbf u_1=\begin{bmatrix}1\\0\end{bmatrix} ,不能张成整个平面。

特征向量的应用

许多实际问题都可归结为研究矩阵的方幂 An(nN)A^n\quad (n\in\N^*) 乘以向量 v\mathbf v ,不难想象,当方幂很大时,直接用矩阵的乘法、矩阵与向量的乘法进行计算会非常麻烦。而矩阵的特征值和特征向量矩阵对幂运算十分友好,因此在数学和实际问题中有着广泛的应用。

性质

  1. 设矩阵 AA 特征值 λ\lambda 的特征向量为 u\mathbf u,则用数学归纳法可以得到

    Anu=λnuA^n\mathbf u=\lambda^n\mathbf u

  2. 设矩阵 AA 特征值 λ1,λ2\lambda_1,\lambda_2 的特征向量分别为 u1,u2\mathbf u_1,\mathbf u_2。对于任意向量 v\mathbf v ,可以用特征向量线性表示 v=v1u1+v2u2\mathbf v=v_1\mathbf u_1+v_2\mathbf u_2 。那么,用数学归纳法可以得到

    Anv=v1λ1nu1+v2λ2nu2A^n\mathbf v=v_1\lambda_1^n\mathbf u_1+v_2\lambda_2^n\mathbf u_2

证明:从线性变换的角度理解,性质1中矩阵 AA 只是对特征向量做伸缩变换,因此矩阵幂的效果等价于特征值(缩放比例)的幂。性质2中矩阵的幂变换等同于切换到特征基中做了同等次数的伸缩变换。

性质1用数学归纳法证明:
(1) 当 n=1n=1

Au=λuA\mathbf u=\lambda\mathbf u

(2) 假设当 n=k1n=k-1 时成立,即

Ak1u=λk1uA^{k-1}\mathbf u=\lambda^{k-1}\mathbf u

n=kn=k 时,因为

Aku=A(Ak1u)=A(λk1u)=λk1(Au)=λkuA^k\mathbf u=A(A^{k-1}\mathbf u)=A(\lambda^{k-1}\mathbf u)=\lambda^{k-1}(A\mathbf u)=\lambda^k\mathbf u

所以,对 n=kn=k 时成立。由数学归纳法可知,对所有的 nNn\in\N^* 都成立。

实例:在扩散理论中的应用。设某物质能以气态和液态的混合状态存在,假定在任意一段很短的时间内
(1) 液体的 5%5\% 蒸发成气态;
(2) 气体的 1%1\% 凝结成液态。
假定该物质的总量一直保持不变,那么最终的情况如何?

为了研究的方便,用 g0,l0g_0,l_0 分别表示现在的气体和液体的比例 (g0+l0=1)(g_0+l_0=1)gn,lng_n,l_n 分别表示 nn 段时间后液体和气体的比例。记物质总量为 MM ,一直保持不变。

(1) 先求 g1,l1g_1,l_1

可以看出,在很短时间后,气体由现在气体的 99%99\% 加上现在液体的 5%5\% 组成,即

g1M=0.99g0M+0.05l0Mg_1M=0.99g_0M+0.05l_0M

同理,在很短时间后的液体

l1M=0.01g0M+0.95l0Ml_1M=0.01g_0M+0.95l_0M

因此

{g1=0.99g0+0.05l0l1=0.01g0+0.95l0\begin{cases} g_1=0.99g_0+0.05l_0 \\ l_1=0.01g_0+0.95l_0 \end{cases}

矩阵形式为

[g1l1]=[0.990.050.010.95][g0l0]\begin{bmatrix} g_1\\l_1 \end{bmatrix}= \begin{bmatrix} 0.99&0.05\\0.01&0.95 \end{bmatrix} \begin{bmatrix} g_0\\l_0 \end{bmatrix}

记矩阵P=[0.990.050.010.95]P=\begin{bmatrix} 0.99&0.05\\0.01&0.95 \end{bmatrix} 则上式写为

[g1l1]=P[g0l0]\begin{bmatrix} g_1\\l_1 \end{bmatrix}=P\begin{bmatrix} g_0\\l_0 \end{bmatrix}

矩阵 PP 记录了很短时间内气液的转变情况。

(2) 类似与 g1,l1g_1,l_1 的推导过程,可以得到

[g1l1]=P[g0l0];[g2l2]=P[g1l1]=P2[g0l0];[gnln]=P[gn1ln1]=Pn[g0l0]\begin{aligned} & \begin{bmatrix} g_1\\l_1 \end{bmatrix}=P\begin{bmatrix} g_0\\l_0 \end{bmatrix}; \\ & \begin{bmatrix} g_2\\l_2 \end{bmatrix}=P\begin{bmatrix} g_1\\l_1 \end{bmatrix}=P^2\begin{bmatrix} g_0\\l_0 \end{bmatrix}; \\ & \cdots\cdots \\ & \begin{bmatrix} g_n\\l_n \end{bmatrix}=P\begin{bmatrix} g_{n-1}\\l_{n-1} \end{bmatrix}=P^n\begin{bmatrix} g_0\\l_0 \end{bmatrix} \end{aligned}

由于该问题已转化为矩阵指数的形式,我们可以用矩阵特征值和特征向量的性质求解。

(3) 可以证明矩阵

A=[1pqp1q](0<p,q<1)A=\begin{bmatrix}1-p & q\\ p &1-q\end{bmatrix}\quad (0<p,q<1)

的特征值是 λ1=1, λ2=1pq\lambda_1=1,\ \lambda_2=1-p-q,对应的特征向量分别是 u1=[qp], u2=[11]\mathbf u_1=\begin{bmatrix} q\\ p\end{bmatrix},\ \mathbf u_2=\begin{bmatrix} 1\\ -1\end{bmatrix}

从而得到矩阵 PP 的特征值是 λ1=1, λ2=0.94\lambda_1=1,\ \lambda_2=0.94,对应的特征向量分别是 u1=[0.050.01], u2=[11]\mathbf u_1=\begin{bmatrix} 0.05\\ 0.01\end{bmatrix},\ \mathbf u_2=\begin{bmatrix} 1\\ -1\end{bmatrix}。再把初始向量 [g0l0]\begin{bmatrix} g_0\\l_0 \end{bmatrix} 用特征向量表示,设

[g0l0]=k1[0.050.01]+k2[11]where g0+l0=1\begin{bmatrix} g_0\\l_0 \end{bmatrix}=k_1\begin{bmatrix} 0.05\\ 0.01\end{bmatrix}+k_2\begin{bmatrix} 1\\ -1\end{bmatrix}\quad\text{where }g_0+l_0=1

解得 k1=503,k2=g056k_1=\frac{50}{3},k_2=g_0-\frac{5}{6} ,所以由性质2得,对于任意的自然数 nn

[gnln]=Pn[g0l0]=k1×1n[0.050.01]+k2×0.94n[11]\begin{bmatrix} g_n\\l_n \end{bmatrix}=P^n\begin{bmatrix} g_0\\l_0 \end{bmatrix}=k_1\times1^n\begin{bmatrix} 0.05\\ 0.01\end{bmatrix}+k_2\times0.94^n\begin{bmatrix} 1\\ -1\end{bmatrix}

从而 gn=0.05k1+0.94nk2, ln=0.01k10.94nk2g_n=0.05k_1+0.94^nk_2,\ l_n=0.01k_1-0.94^nk_2,所以

g=limn(0.05k1+0.94nk2)=0.05k1=56l=limn(0.01k10.94nk2)=0.01k1=16g_{\infty}=\lim\limits_{n\to\infty}(0.05k_1+0.94^nk_2)=0.05k_1=\frac{5}{6} \\ l_{\infty}=\lim\limits_{n\to\infty}(0.01k_1-0.94^nk_2)=0.01k_1=\frac{1}{6}

那么,我们可以得到,不管该物质最初的气液比率如何,最终将达到一个平衡状态,此时该物质的 5/65/6 是气态的,1/61/6 是液体的。

内积空间

内积空间

三维几何空间是线性空间的一个重要例子,如果分析一下三维几何空间,我们就会发现它还具有一般线性空间不具备的重要性质:三维几何空间中向量有长度和夹角,这称为三维几何空间的度量性质。现在,我们在一般线性空间中引入度量有关的概念。

我们知道三维几何空间中向量的长度和夹角可由向量的内积来决定。内积就是一个函数,它把向量对u,v\mathbf u,\mathbf v 映射成一个数。在向量空间 VV 中,将内积运算记为 u,v\lang\mathbf u,\mathbf v\rang,满足以下性质

  1. u,v=v,u\lang\mathbf u,\mathbf v\rang=\lang\mathbf v,\mathbf u\rang
  2. u,v+w=u,v+u,w\lang\mathbf u,\mathbf v+\mathbf w\rang=\lang\mathbf u,\mathbf v\rang+\lang\mathbf u,\mathbf w\rang
  3. cu,v=cu,v=u,cvc\lang\mathbf u,\mathbf v\rang=\lang c\mathbf u,\mathbf v\rang=\lang \mathbf u,c\mathbf v\rang
  4. v,v0, v,v=0 iff v=0\lang\mathbf v,\mathbf v\rang\geqslant 0,\ \lang\mathbf v,\mathbf v\rang=0\text{ iff }\mathbf v=0

定义了内积运算的向量空间称为内积空间(innerproductspace)。

注意,内积只给出了性质,而没给出具体的计算法则。

对于向量空间 VV 中的任意两向量

u=u1e1++unenv=v1e1++vnen\mathbf u=u_1\mathbf e_1+\cdots+u_n\mathbf e_n \\ \mathbf v=v_1\mathbf e_1+\cdots+v_n\mathbf e_n

由内积的基本性质知道,其内积

u,v=u1e1++unen, v1e1++vnen=i,juivjei,ej\lang\mathbf u,\mathbf v\rang =\lang u_1\mathbf e_1+\cdots+u_n\mathbf e_n,\ v_1\mathbf e_1+\cdots+v_n\mathbf e_n\rang =\sum_{i,j}u_iv_j\lang\mathbf e_i,\mathbf e_j\rang

可见,只要知道基向量之间的内积,就可以求出任意两个向量的内积。上式用矩阵乘法表示为

u,v=uTMv\lang\mathbf u,\mathbf v\rang=\mathbf u^TM\mathbf v

其中,矩阵 M=(δij)M=(\delta_{ij}) 称为坐标基的度量矩阵,包含了基向量两两之间的内积

δij=ei,ej\delta_{ij}=\lang\mathbf e_i,\mathbf e_j\rang

定义:三维几何空间的度量概念也推广到向量空间中

  1. v=v,v\|\mathbf v\|=\sqrt{\lang\mathbf v,\mathbf v\rang} 称为向量的长度范数
  2. dist(u,v)=uv\text{dist}(\mathbf u,\mathbf v)=\|\mathbf u-\mathbf v\| 称为向量 u,v\mathbf u,\mathbf v 间的距离
  3. 两向量的夹角余弦 cosθ=u,vuv\cos\theta=\dfrac{\lang\mathbf u,\mathbf v\rang}{\|\mathbf u\|\cdot\|\mathbf v\|}
  4. u,v=0\lang\mathbf u,\mathbf v\rang=0 ,则称 u,v\mathbf u,\mathbf v 正交(orthogonal);
  5. 长度为1的向量称为单位向量
  6. 如果向量空间的基向量都为单位向量且两两正交,则称为标准正交基(orthonormal basis);

性质

  1. v0,v=0 iff v=0\|\mathbf v\|\geqslant 0,\quad \|\mathbf v\|=0\text{ iff }\mathbf v=0
  2. cv=c vc\|\mathbf v\|=|c|\ \|\mathbf v\|
  3. 勾股定理:若 u,v\mathbf u,\mathbf vVV 中的正交向量,则 u+v2=u2+v2\|\mathbf u+\mathbf v\|^2=\|\mathbf u\|^2+\|\mathbf v\|^2
  4. 柯西-施瓦茨不等式u,vuv|\lang\mathbf u,\mathbf v\rang|\leqslant\|\mathbf u\|\cdot\|\mathbf v\|
  5. 三角不等式u+vu+v\|\mathbf u+\mathbf v\|\leqslant\|\mathbf u\|+\|\mathbf v\|
  6. 若向量组是一组两两正交的非零向量,则向量组线性无关

示例:向量空间的欧几里得内积定义为

u,v=uTv=u1v1+u2v2++unvn\lang\mathbf u,\mathbf v\rang=\mathbf u^T\mathbf v=u_1v_1+u_2v_2+\cdots+u_nv_n

即采用的是标准正交基,度量矩阵为单位阵

δij={1,i=j0,ij\delta_{ij}=\begin{cases}1, &i=j \\0, &i\neq j\end{cases}

以后,当我们讨论内积空间时,总默认采用欧几里得内积。

正交补:设 WWVV 的子空间,如果向量 z\mathbf z 与子空间 WW 中的任意向量都正交 ,则称 z\mathbf z 正交于 WW。与子空间 WW 正交的全体向量的集合称为 WW正交补(orthogonal complement),并记作 WW^{\perp}

W={zVwW,z,w=0}W^{\perp}=\{\mathbf z\in V\mid \forall\mathbf w\in W,\lang\mathbf z,\mathbf w\rang=0\}

由其次方程 Ax=0A\mathbf x=0 的解空间易知:

  1. (row A)=kerA(\text{row }A)^{\perp}=\ker A
  2. (col A)=kerAT(\text{col }A)^{\perp}=\ker A^T

定理:若 z\mathbf zu1,u2,,up\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p 均正交,则 z\mathbf z 正交于 W=span {u1,u2,,up}W=\text{span }\{\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p\}

证:对于任意 vW\mathbf v\in W ,可线性表示为

v=x1u1+x2u2++xpup\mathbf v=x_1\mathbf u_1+x_2\mathbf u_2+\cdots+x_p\mathbf u_p

由内积的性质知

z,v=x1z,u1+x2z,u2++xpz,up=0\lang\mathbf z,\mathbf v\rang=x_1\lang\mathbf z,\mathbf u_1\rang+x_2\lang\mathbf z,\mathbf u_2\rang+\cdots+x_p\lang\mathbf z,\mathbf u_p\rang=0

于是可知z\mathbf z 正交于 WW

正交矩阵与正交变换

定义:若矩阵 AA 满足 ATA=IA^TA=I,即 A1=ATA^{-1}=A^T,则称 AA正交矩阵

上式用 AA 的列向量表示,即

[a1Ta2TanT](a1,a2,,an)=In\begin{bmatrix}\mathbf a_1^T\\ \mathbf a_2^T\\ \vdots\\\mathbf a_n^T\end{bmatrix} (\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_n)=I_n

于是得到

aiaj={1,i=j0,ij\mathbf a_i\mathbf a_j=\begin{cases}1, &i=j\\ 0, &i\neq j\end{cases}

定理:矩阵 AA 为正交矩阵的充要条件是AA 的列向量都是单位向量且两两正交。

考虑到 ATA=IA^TA=IAAT=IAA^T=I 等价,所以上述结论对 AA 的行向量亦成立。

正交矩阵 AA 对应的线性变换称为正交变换。设 u,vV\mathbf u,\mathbf v\in V ,则变换后的内积

Au,Av=(Au)T(Av)=uTv=u,v\lang A\mathbf u,A\mathbf v\rang=(A\mathbf u)^T(A\mathbf v)=\mathbf u^T\mathbf v=\lang\mathbf u,\mathbf v\rang

定理:正交变换后向量内积保持不变,从而向量的长度、距离和夹角均保持不变。

正交投影

正交分解定理:设 WWVV 的子空间,那么对于任意 vV\mathbf v\in V 可唯一表示为

v=v^+z\mathbf v=\hat{\mathbf v}+\mathbf z

其中 v^W,zW\hat{\mathbf v}\in W,\mathbf z\in W^{\perp}v^\hat{\mathbf v} 称为v\mathbf vWW 上的正交投影(orthogonal projection),记作 projWv\text{proj}_W\mathbf v 。若 u1,u2,,up\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_pWW 的任意正交基,则

v^=projWv=v,u1u1,u1u1+v,u2u2,u2u2++v,upup,upup\hat{\mathbf v}=\text{proj}_W\mathbf v=\frac{\lang\mathbf v,\mathbf u_1\rang}{\lang\mathbf u_1,\mathbf u_1\rang}\mathbf u_1+\frac{\lang\mathbf v,\mathbf u_2\rang}{\lang\mathbf u_2,\mathbf u_2\rang}\mathbf u_2+\cdots+\frac{\lang\mathbf v,\mathbf u_p\rang}{\lang\mathbf u_p,\mathbf u_p\rang}\mathbf u_p

证:若u1,u2,,up\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_pWW 的任意正交基,则任意 vV\mathbf v\in V 的投影可线性表示

v^=x1u1+x2u2++xpup\hat{\mathbf v}=x_1\mathbf u_1+x_2\mathbf u_2+\cdots+x_p\mathbf u_p

z=vv^\mathbf z=\mathbf v-\hat{\mathbf v} ,由于任意基向量uj\mathbf u_j 与其他基向量正交且 zW\mathbf z\in W^{\perp},则

z,uj=vv^,uj=v,ujxjuj,uj=0\lang\mathbf z,\mathbf u_j\rang=\lang\mathbf v-\hat{\mathbf v},\mathbf u_j\rang= \lang\mathbf v,\mathbf u_j\rang-x_j\lang\mathbf u_j,\mathbf u_j\rang=0

于是便求得了投影的系数

xj=v,ujuj,ujx_j=\frac{\lang\mathbf v,\mathbf u_j\rang}{\lang\mathbf u_j,\mathbf u_j\rang}

性质:设 WWVV 的子空间,vV,v^=projWv\mathbf v\in V,\hat{\mathbf v}=\text{proj}_W\mathbf v

  1. (最佳逼近定理) v^\hat{\mathbf v}WW 中最接近 v\mathbf v 的点,即对于 wW, vv^vw\forall\mathbf w\in W,\ \|\mathbf v-\hat{\mathbf v}\|\leqslant \|\mathbf v-\mathbf w\|
  2. U=(u1,u2,,up)U=(\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_p) 的列向量是 WW 的单位正交基,则 projWv=UUTv\text{proj}_W\mathbf v=UU^T\mathbf v

证:(1) 取WW 中的任一向量 w\mathbf w ,由于

vw=(vv^)+(v^w)\mathbf v-\mathbf w=(\mathbf v-\hat{\mathbf v})+(\hat{\mathbf v}-\mathbf w)

由勾股定理定理知道

vw2=vv^2+v^w2\|\mathbf v-\mathbf w\|^2=\|\mathbf v-\hat{\mathbf v}\|^2+\|\hat{\mathbf v}-\mathbf w\|^2

由于 v^w20\|\hat{\mathbf v}-\mathbf w\|^2\geqslant 0 从而不等式得证。

(2) 由于u1,u2,,up\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_pWW 的单位正交基,那么

projWv=v,u1u1+v,u2u2++v,upup=u1Tvu1+u2Tvu2++upTvup=UUTv\text{proj}_W\mathbf v=\lang\mathbf v,\mathbf u_1\rang\mathbf u_1+\lang\mathbf v,\mathbf u_2\rang\mathbf u_2\cdots++\lang\mathbf v,\mathbf u_p\rang\mathbf u_p\\ =\mathbf u_1^T\mathbf v\mathbf u_1+\mathbf u_2^T\mathbf v\mathbf u_2+\cdots+\mathbf u_p^T\mathbf v\mathbf u_p=UU^T\mathbf v

施密特正交化

施密特(Schmidt)正交化方法是将向量空间 VV 的任意一组基 a1,a2,,ar\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r 构造成标准正交基 e1,e2,,er\mathbf e_1,\mathbf e_2,\cdots,\mathbf e_r 的简单算法。

b1=a1b2=a2b1Ta2b1Tb1b1b3=a3b1Ta3b1Tb1b1b2Ta3b2Tb2b2br=arb1Tarb1Tb1b1b2Tarb2Tb2b2br1Tar1br1Tbr1br1\begin{aligned} &\mathbf b_1=\mathbf a_1 \\ &\mathbf b_2=\mathbf a_2-\frac{\mathbf b_1^T\mathbf a_2}{\mathbf b_1^T\mathbf b_1}\mathbf b_1 \\ &\mathbf b_3=\mathbf a_3-\frac{\mathbf b_1^T\mathbf a_3}{\mathbf b_1^T\mathbf b_1}\mathbf b_1-\frac{\mathbf b_2^T\mathbf a_3}{\mathbf b_2^T\mathbf b_2}\mathbf b_2 \\ &\cdots \\ &\mathbf b_r=\mathbf a_r-\frac{\mathbf b_1^T\mathbf a_r}{\mathbf b_1^T\mathbf b_1}\mathbf b_1-\frac{\mathbf b_2^T\mathbf a_r}{\mathbf b_2^T\mathbf b_2}\mathbf b_2-\cdots-\frac{\mathbf b_{r-1}^T\mathbf a_{r-1}}{\mathbf b_{r-1}^T\mathbf b_{r-1}}\mathbf b_{r-1} \\ \end{aligned}

那么 b1,b2,,br\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_rVV 的一组正交基

V=span {a1,a2,,ar}=span {b1,b2,,br}V=\text{span }\{\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r\}=\text{span }\{\mathbf b_1,\mathbf b_2,\cdots,\mathbf b_r\}

再把它们单位化

e1=1b1b1,e2=1b2b2,,er=1brbr\mathbf e_1=\frac{1}{\|\mathbf b_1\|}\mathbf b_1,\quad\mathbf e_2=\frac{1}{\|\mathbf b_2\|}\mathbf b_2,\quad\cdots,\quad\mathbf e_r=\frac{1}{\|\mathbf b_r\|}\mathbf b_r

最终获得 VV 的一组标准正交基。

例:设 a1=[1111],a2=[0111],a3=[0011]\mathbf a_1=\begin{bmatrix}1\\1\\1\\1\end{bmatrix},\mathbf a_2=\begin{bmatrix}0\\1\\1\\1\end{bmatrix},\mathbf a_3=\begin{bmatrix}0\\0\\1\\1\end{bmatrix} 是子空间VV的一组基,试构造 VV 的一组正交基

解:step 1 取第一个基向量 b1=a1,W1=span{a1}=span{b1}\mathbf b_1=\mathbf a_1,W_1=\text{span}\{\mathbf a_1\}=\text{span}\{\mathbf b_1\}

step 2 取第二个基向量

b2=a2projW1a2=a2b1Ta2b1Tb1b1=[0111]34[1111]=[3/41/41/41/4]\mathbf b_2=\mathbf a_2-\text{proj}_{W_1}\mathbf a_2= \mathbf a_2-\frac{\mathbf b_1^T\mathbf a_2}{\mathbf b_1^T\mathbf b_1}\mathbf b_1\\ =\begin{bmatrix}0\\1\\1\\1\end{bmatrix}-\frac{3}{4}\begin{bmatrix}1\\1\\1\\1\end{bmatrix}= \begin{bmatrix}-3/4\\1/4\\1/4\\1/4\end{bmatrix}

为计算方便,缩放 b2=(3,1,1,1)T\mathbf b_2=(-3,1,1,1)^T 。同样取 W2=span{b1,b2}W_2=\text{span}\{\mathbf b_1,\mathbf b_2\}

step 3 取第三个基向量

b3=a3projW2a3=a3b1Ta3b1Tb1b1b2Ta3b2Tb2b2=[0011]24[1111]212[3111]=[02/31/31/3]\mathbf b_3=\mathbf a_3-\text{proj}_{W_2}\mathbf a_3= \mathbf a_3-\frac{\mathbf b_1^T\mathbf a_3}{\mathbf b_1^T\mathbf b_1}\mathbf b_1-\frac{\mathbf b_2^T\mathbf a_3}{\mathbf b_2^T\mathbf b_2}\mathbf b_2\\ =\begin{bmatrix}0\\0\\1\\1\end{bmatrix}- \frac{2}{4}\begin{bmatrix}1\\1\\1\\1\end{bmatrix}- \frac{2}{12}\begin{bmatrix}-3\\1\\1\\1\end{bmatrix}= \begin{bmatrix}0\\-2/3\\1/3\\1/3\end{bmatrix}

Schmidt

实对称矩阵的对角化

定理

  1. 实对称矩阵对应于不同特征值的特征向量必正交。
  2. 实对称矩阵可正交相似对角化。即对于对称矩阵 AA ,存在正交矩阵 PP ,使 Λ=P1AP\Lambda=P^{-1}APΛ\Lambda 的对角元素为 AA 的特征值。

证明:(1) 设实对称矩阵 AA 对应不同特征值 λ1,λ2\lambda_1,\lambda_2 的特征向量分别为 u1,u2\mathbf u_1,\mathbf u_2 。则

AT=A,Au1=λ1u1,Au2=λ2u2A^T=A,\quad A\mathbf u_1=\lambda_1\mathbf u_1,\quad A\mathbf u_2=\lambda_2\mathbf u_2

Au1=λ1u1A\mathbf u_1=\lambda_1\mathbf u_1两边求转置,再右乘向量 u2\mathbf u_2,有

u1TAu2=λ1u1Tu2\mathbf u_1^TA\mathbf u_2=\lambda_1\mathbf u_1^T\mathbf u_2

Au2=λ2u2A\mathbf u_2=\lambda_2\mathbf u_2两边左乘向量 u1T\mathbf u_1^T,有

u1TAu2=λ2u1Tu2\mathbf u_1^TA\mathbf u_2=\lambda_2\mathbf u_1^T\mathbf u_2

两式相减,得到

(λ1λ2)u1Tu2=0(\lambda_1-\lambda_2)\mathbf u_1^T\mathbf u_2=0

由于 λ1λ2\lambda_1\neq \lambda_2 ,所以 u1Tu2=0\mathbf u_1^T\mathbf u_2=0 ,即特征向量 u1,u2\mathbf u_1,\mathbf u_2 正交。

例:将矩阵A=[324262423]A=\begin{bmatrix}3&-2&4\\-2&6&2\\4&2&3\end{bmatrix}正交对角化

解:特征方程 det(AλI)=(λ7)2(λ+2)=0\det(A-\lambda I)=-(\lambda-7)^2(\lambda+2)=0 ,特征值和特征向量分别为

λ=7:v1=[101],v2=[1/210];λ=2:v1=[11/21]\lambda=7:\mathbf v_1=\begin{bmatrix}1\\0\\1\end{bmatrix}, \mathbf v_2=\begin{bmatrix}-1/2\\1\\0\end{bmatrix}; \quad \lambda=-2:\mathbf v_1=\begin{bmatrix}-1\\-1/2\\1\end{bmatrix}

尽管 v1,v2\mathbf v_1,\mathbf v_2 是线性无关的,但它们并不正交。我们可以用施密特正交化方法,计算与 v1\mathbf v_1 正交的 v2\mathbf v_2 分量

z2=v2v1Tv2v1Tv1v1=[1/411/4]\mathbf z_2=\mathbf v_2-\frac{\mathbf v_1^T\mathbf v_2}{\mathbf v_1^T\mathbf v_1}\mathbf v_1=\begin{bmatrix}-1/4\\1\\1/4\end{bmatrix}

由于 z2\mathbf z_2 是特征值λ=7\lambda=7 的特征向量 v1,v2\mathbf v_1,\mathbf v_2 的线性组合,从而 z2\mathbf z_2 是特征值λ=7\lambda=7 的特征向量。

分别将 v1,v2,v3\mathbf v_1,\mathbf v_2,\mathbf v_3 标准化

u1=[1/201/2],u2=[1/184/181/18],u3=[2/31/32/3]\mathbf u_1=\begin{bmatrix}1/\sqrt{2}\\0\\1/\sqrt{2}\end{bmatrix}, \mathbf u_2=\begin{bmatrix}-1/\sqrt{18}\\4/\sqrt{18}\\1/\sqrt{18}\end{bmatrix}, \mathbf u_3=\begin{bmatrix}-2/3\\-1/3\\2/3\end{bmatrix}

P=(u1,u2,u3)=[1/21/182/304/181/31/21/182/3],Λ=[700070002]P=(\mathbf u_1,\mathbf u_2,\mathbf u_3)=\begin{bmatrix}1/\sqrt{2}&-1/\sqrt{18}&-2/3\\0&4/\sqrt{18}&-1/3\\1/\sqrt{2}&1/\sqrt{18}&2/3\end{bmatrix},\quad \Lambda=\begin{bmatrix}7&0&0\\0&7&0\\0&0&-2\end{bmatrix}

于是正交矩阵 PPAA 正交对角化,即 A=PΛP1A=P\Lambda P^{-1}

对称矩阵的谱:矩阵 AA 的特征值的集合称为 AA(spectrum)

spec A={λCdet(AλI)=0}\text{spec }A=\{\lambda\in\Complex\mid\det(A-\lambda I)=0\}

性质AAnn 阶对称阵

  1. AAnn 个实特征值(包含重复的特征值);
  2. 对于每一个特征值,对应的特征空间的维数等于特征方程的根的重数;
  3. 不同特征值的特征空间相互正交的;
  4. AA 可正交対角化;

谱分解:假设对称矩阵 A=PΛP1A=P\Lambda P^{-1} 。其中 PP 为正交矩阵,其列是 AA 的正交特征向量 u1,u2,,un\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_n ,对应的特征值 λ1,λ2,,λn\lambda_1,\lambda_2,\cdots,\lambda_nΛ\Lambda 的对角线元素。由于 PT=P1P^T=P^{-1} ,故

A=PΛP1=(u1,u2,,un)[λ1λ2λn][u1Tu2TunT]=(λ1u1,λ2u2,,λnun)[u1Tu2TunT]=λ1u1u1T+λ2u2u2T++λnununT\begin{aligned} A&=P\Lambda P^{-1}=(\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_n) \begin{bmatrix}\lambda_1\\&\lambda_2\\&&\ddots\\&&&\lambda_n\end{bmatrix} \begin{bmatrix}\mathbf u_1^T\\\mathbf u_2^T\\\vdots\\\mathbf u_n^T\end{bmatrix} \\ &=(\lambda_1\mathbf u_1,\lambda_2\mathbf u_2,\cdots,\lambda_n\mathbf u_n) \begin{bmatrix}\mathbf u_1^T\\\mathbf u_2^T\\\vdots\\\mathbf u_n^T\end{bmatrix} \\ &=\lambda_1\mathbf u_1\mathbf u_1^T+\lambda_2\mathbf u_2\mathbf u_2^T+\cdots+\lambda_n\mathbf u_n\mathbf u_n^T \end{aligned}

由于它将 AA 分解为由 AA 的特征值确定的小块,因此这个 AA 的表示就称为 AA谱分解。 上式中的每一项都是一个秩为1的 nn 阶方阵。例如,λ1u1u1T\lambda_1\mathbf u_1\mathbf u_1^T的每一列都是 u1\mathbf u_1 的倍数。

二次型与合同

二次型与标准型

Grant:二次型研究的是二次曲面在不同基下的坐标变换

由解析几何的知识,我们了解到二次函数的一次项和常数项只是对函数图像进行平移,并不会改变图形的形状和大小。以一元二次函数为例

而二次函数的二次项控制函数图像的大小和形状。以二元二次函数为例,观察 f(x,y)=1f(x,y)=1 的截面图形

线性代数主要研究这些图形的二次项,通过线性变换使二次曲面变得规范简洁。

定义nn 元二次齐次多项式

f(x1,,xn)=a11x12+2a12x1x2++2a1nx1xn+a22x22+2a23x2x3++2a2nx2xn+annxn2\begin{aligned} f(x_1,\cdots,x_n)=&a_{11}x_1^2+2a_{12}x_1x_2+\cdots+2a_{1n}x_1x_n \\ &+a_{22}x_2^2+2a_{23}x_2x_3+\cdots+2a_{2n}x_2x_n \\ &+a_{nn}x_n^2 \end{aligned}

称为二次型(quadratic form),这其实是二次曲面在一组坐标基下的解析表达式。

利用矩阵乘法,二次型可简记为

f=[x1x2xn][a11a12a1na21a22a2nam1am2amn][x1x2xn]=xTAxf=\begin{bmatrix}x_1&x_2&\cdots&x_n\end{bmatrix} \begin{bmatrix} a_{11}&a_{12}&\cdots&a_{1n} \\ a_{21}&a_{22}&\cdots&a_{2n} \\ \vdots&\vdots&\ddots&\vdots \\ a_{m1}&a_{m2}&\cdots&a_{mn} \\ \end{bmatrix} \begin{bmatrix}x_1\\x_2\\\vdots\\x_n\end{bmatrix} =\mathbf x^TA\mathbf x

其中 AA 是对称阵,其主对角线元素是平方项的系数,其余元素 aij=ajia_{ij}=a_{ji} 是二次项 xixjx_ix_j 系数 2aij2a_{ij} 的一半。显然,对称矩阵 AA 与二次型 ff 是相互唯一确定的。矩阵 AA 及其秩分别称为二次型的矩阵和秩。

在某些情况下,没有交叉乘积项的二次型会更容易使用,即通过线性变换 x=Cy\mathbf x=C\mathbf y 来消除交叉乘积项

f=xTAx=x=CyyT(CTAC)y=yTΛyf=\mathbf x^TA\mathbf x\xlongequal{\mathbf x=C\mathbf y}\mathbf y^T(C^TAC)\mathbf y=\mathbf y^T\Lambda\mathbf y

由于矩阵 AA 是对称阵,由上节对称矩阵的对角化知道,总有正交矩阵 CC,使

C1AC=CTAC=ΛC^{-1}AC=C^TAC=\Lambda

Λ\Lambda 的对角线元素是 AA 的特征值,于是二次型可简化为

f=λ1y12+λ2y22++λnyn2f=\lambda_1y_1^2+\lambda_2y_2^2+\cdots+\lambda_ny_n^2

这种只含平方项的二次型称为标准型(standard form)。显然,标准形的矩阵是对角阵。任何二次型都可通过正交变换化为标准型。系数全为 +1,-1或 0 的标准型叫做规范型(gauge form)。

定义:设AABBnn阶矩阵,若有nn阶可逆矩阵CC,使

B=CTACB=C^TAC

则称矩阵AABB合同,记为 ABA\simeq B 。显然,合同矩阵即为二次型在不同基下的矩阵。

性质:设矩阵 ABA\simeq B

  1. AA 为对称阵,则 BB 也为对称阵;
  2. 合同矩阵的秩相等 rank(A)=rank(B)\text{rank}(A)=\text{rank}(B)

化二次型为标准型的三种方法:

  1. 求矩阵 AA 的特征值和特征向量化为标准型;

  2. 使用多项式配方法化为标准型;

  3. 使用初等变换法将上方的矩阵 AA 的位置变为对角阵(左乘为行变换,不影响下方单位阵变换)

    [AI][CTACC]\begin{bmatrix}A\\I\end{bmatrix}\xrightarrow{}\begin{bmatrix}C^TAC\\C\end{bmatrix}

例:将椭圆方程 5x124x1x2+5x22=485x_1^2-4x_1x_2+5x_2^2=48 标准化

解:二次型的矩阵 A=[5225]A=\begin{bmatrix}5&-2\\-2&5\end{bmatrix} ,特征值分别为 3和 7,对应的单位特征向量为

u1=[1/21/2],u2=[1/21/2]\mathbf u_1=\begin{bmatrix}1/\sqrt{2}\\1/\sqrt{2}\end{bmatrix}, \mathbf u_2=\begin{bmatrix}-1/\sqrt{2}\\1/\sqrt{2}\end{bmatrix}

可使用特征向量 u1,u2\mathbf u_1,\mathbf u_2 作为二次型的标准正交基。正交变换矩阵和标准型矩阵分别为

C=(u1,u2)=[1/21/21/21/2],Λ=[3007]C=(\mathbf u_1,\mathbf u_2)=\begin{bmatrix}1/\sqrt{2}&-1/\sqrt{2}\\1/\sqrt{2}&1/\sqrt{2}\end{bmatrix},\quad \Lambda=\begin{bmatrix}3&0\\0&7\end{bmatrix}

CC 可将 AA 正交对角化,Λ=CTAC\Lambda=C^TAC 。所以正交变换 x=Py\mathbf x=P\mathbf y 得到的标准型为

yTCy=3y12+7y22\mathbf y^TC\mathbf y=3y_1^2+7y_2^2

新的坐标轴如图

二次型的分类

定义:设二次型f=xTAxf=\mathbf x^TA\mathbf x ,如果对于任何 x0\mathbf x\neq 0

  1. 都有 f(x)>0f(\mathbf x)>0,则称 ff正定二次型,称 AA正定矩阵
  2. 都有 f(x)<0f(\mathbf x)<0,则称 ff负定二次型,称 AA负定矩阵
  3. 如果 f(x)f(\mathbf x) 既有正值又有负值,则称为不定二次型

从上节可以看出二次型的标准型是不唯一的,但二次型的秩是唯一的,在化成标准型的过程中是不变的,即标准型中含有的非零平方项的个数是不变的。

惯性定理:二次型和标准型中系数为正的平方项的个数相同,称为正惯性指数;系数为负的平方项的个数也相同,称为负惯性指数;正负惯性指数之差称为符号差

定理

  1. nn元二次型为正定的充要条件是它的正惯性指数为 nn
  2. 对称阵AA正定     \iff 特征值全为正     \iff 与单位阵合同 AIA\simeq I
  3. 对称阵AA 正定     \implies A1A^{-1} 正定;

度量矩阵与合同

Grant:合同矩阵为不同坐标系下的度量矩阵。

以二维空间为例,Grant 选用标准坐标系下的基向量 i,j\mathbf i,\mathbf j,度量矩阵

A=[i,ii,jj,ij,j]A=\begin{bmatrix} \lang\mathbf i,\mathbf i\rang&\lang\mathbf i,\mathbf j\rang \\ \lang\mathbf j,\mathbf i\rang&\lang\mathbf j,\mathbf j\rang \end{bmatrix}

而 Jennifer 使用另外一组基向量 i,j\mathbf i',\mathbf j',过渡矩阵 P=[abcd]P=\begin{bmatrix} a&b \\ c&d \end{bmatrix}。即基向量 i,j\mathbf i',\mathbf j' 在 Grant 的坐标系下的坐标表示为

p1=[ac],p2=[bd]\mathbf p_1=\begin{bmatrix} a \\ c \end{bmatrix},\quad \mathbf p_2=\begin{bmatrix} b \\ d \end{bmatrix}

因此, Jennifer 的基向量间的内积

i,i=p1TAp1i,j=p1TAp2j,i=p2TAp1j,j=p2TAp2\lang\mathbf i',\mathbf i'\rang=\mathbf p_1^TA\mathbf p_1\\ \lang\mathbf i',\mathbf j'\rang=\mathbf p_1^TA\mathbf p_2 \\ \lang\mathbf j',\mathbf i'\rang=\mathbf p_2^TA\mathbf p_1 \\ \lang\mathbf j',\mathbf j'\rang=\mathbf p_2^TA\mathbf p_2

于是,Jennifer坐标系的度量矩阵

B=[p1TAp1p1TAp2p2TAp1p2TAp2]=[p1Tp2T]A[p1p2]=PTAPB=\begin{bmatrix} \mathbf p_1^TA\mathbf p_1&\mathbf p_1^TA\mathbf p_2 \\ \mathbf p_2^TA\mathbf p_1&\mathbf p_2^TA\mathbf p_2 \end{bmatrix}= \begin{bmatrix} \mathbf p_1^T \\ \mathbf p_2^T \end{bmatrix}A\begin{bmatrix} \mathbf p_1 & \mathbf p_2 \end{bmatrix} =P^TAP

由此可知,合同矩阵刻画了两度量矩阵间的关系

当然,也可通过两个向量的内积在不同的坐标系中的计算公式获得两个度量矩阵间的关系。由过渡矩阵知道,同一个向量从 Jennifer 的坐标到 Grant 的坐标变换公式为

y=Px\mathbf y=P\mathbf x

在 Jennifer 的坐标系中,两向量 u,v\mathbf u,\mathbf v 的坐标为 x1,x2\mathbf x_1,\mathbf x_2 ,度量矩阵为 BB 。内积计算公式

u,v=x1TBx2\lang\mathbf u,\mathbf v\rang=\mathbf x_1^TB\mathbf x_2

在 Grant 的坐标系中,两向量 u,v\mathbf u,\mathbf v 的的坐标为y1,y2\mathbf y_1,\mathbf y_2,度量矩阵为 AA 。内积计算公式

u,v=y1TAy2=(Px1)TA(Px2)=x1T(PTAP)x2\lang\mathbf u,\mathbf v\rang=\mathbf y_1^TA\mathbf y_2 =(P\mathbf x_1)^TA(P\mathbf x_2)=\mathbf x_1^T(P^TAP)\mathbf x_2

于是,我们得到了两坐标系中度量矩阵的关系

B=PTAPB=P^TAP

矩阵分解

矩阵的因式分解是把矩阵表示为多个矩阵的乘积,这种结构更便于理解和计算。

LU分解

AAm×nm\times n 矩阵,若 AA 可以写成乘积

A=LUA=LU

其中,LLmm 阶下三角方阵,主对角线元素全是1。UUAA 得到一个行阶梯形矩阵。这样一个分解称为LU分解LL 称为单位下三角方阵。

我们先来看看,LU分解的一个应用。当 A=LUA=LU 时,方程 Ax=bA\mathbf x=\mathbf b 可写成 L(Ux)=bL(U\mathbf x)=\mathbf b,于是分解为下面两个方程

Ly=bUx=yL\mathbf y=\mathbf b \\ U\mathbf x=\mathbf y

因为 LLUU 都是三角矩阵,每个方程都比较容易解。

LU 分解算法:本节只讲述仅用行倍加变换求解。可以证明,单位下三角矩阵的乘积和逆也是单位下三角矩阵 。此时,可以用行倍加变换寻找 LLUU 。假设存在单位下三角初等矩阵 P1,,PsP_1,\cdots,P_s 使

P1PsA=UP_1\cdots P_sA=U

于是便得到了 UULL

L=(P1,,Ps)1L=(P_1,\cdots,P_s)^{-1}

QR分解

如果 m×nm\times n 矩阵 AA 的列向量线性无关,那么 AA 可以分解为 A=QRA=QR,其中 QQ 是一个 m×nm\times n 正交矩阵,其列为 col A\text{col }A 的一组标准正交基,RR 是一个上 n×nn\times n 三角可逆矩阵,且其对角线上的元素全为正数。

证:矩阵 A=(x1,x2,,xn)A=(\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n) 的列向量是 col A\text{col }A 的一组基,使用施密特正交化方法可以构造一组标准正交基 u1,u2,,un\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_n ,取

Q=(u1,u2,,un)Q=(\mathbf u_1,\mathbf u_2,\cdots,\mathbf u_n)

因为在正交化过程中 xkspan{x1,,xk}=span{u1,,uk},k=1,2,,n\mathbf x_k\in\text{span}\{\mathbf x_1,\cdots,\mathbf x_k\}=\text{span}\{\mathbf u_1,\cdots,\mathbf u_k\},\quad k=1,2,\cdots,n 。所以 xk\mathbf x_k 可线性表示为

xk=r1ku1++rkkuk+0uk+1++0un\mathbf x_k=r_{1k}\mathbf u_1+\cdots+r_{kk}\mathbf u_k+0\cdot\mathbf u_{k+1}+\cdots+0\cdot\mathbf u_n

于是

xk=Qrk\mathbf x_k=Q\mathbf r_k

其中 rk=(r1k,,rkk,0,,0)T\mathbf r_k=(r_{1k},\cdots,r_{kk},0,\cdots,0)^T ,且 rkk0r_{kk}\geqslant 0 (在正交化过程中,若 rkk<0r_{kk}<0 ,则rkkr_{kk}uk\mathbf u_k 同乘-1)。取 R=(r1,r2,,rn)R=(\mathbf r_1,\mathbf r_2,\cdots,\mathbf r_n) ,则

A=(Qr1,Qr2,,Qrn)=QRA=(Q\mathbf r_1,Q\mathbf r_2,\cdots,Q\mathbf r_n)=QR

例:求 A=[100110111111]A=\begin{bmatrix}1&0&0\\1&1&0\\1&1&1\\1&1&1\end{bmatrix} 的一个 QR 分解

解:通过施密特正交化方法我们可以得到 col A\text{col }A 的一组标准正交基,将这些向量组成矩阵

Q=[1/23/1201/21/122/61/21/121/61/21/121/6]Q=\begin{bmatrix}1/2&-3/\sqrt{12}&0\\1/2&1/\sqrt{12}&-2/\sqrt{6}\\1/2&1/\sqrt{12}&1/\sqrt{6}\\1/2&1/\sqrt{12}&1/\sqrt{6}\end{bmatrix}

注意到 QQ 是正交矩阵,QT=Q1Q^T=Q^{-1} 。所以 R=Q1A=QTAR=Q^{-1}A=Q^TA

R=[1/21/21/21/23/121/121/121/1202/61/61/6][100110111111]=[23/2103/122/12002/6]R=\begin{bmatrix}1/2&1/2&1/2&1/2\\ -3/\sqrt{12}&1/\sqrt{12}&1/\sqrt{12}&1/\sqrt{12} \\ 0&-2/\sqrt{6}&1/\sqrt{6}&1/\sqrt{6} \end{bmatrix} \begin{bmatrix}1&0&0\\1&1&0\\1&1&1\\1&1&1\end{bmatrix}= \begin{bmatrix}2&3/2&1\\0&3/\sqrt{12}&2/\sqrt{12}\\0&0&2/\sqrt{6} \end{bmatrix}

特征值分解

特征值分解是将矩阵分解成特征值和特征向量形式:

A=QΣQ1A=Q\Sigma Q^{-1}

其中,Σ=diag(λ1,λ2,,λn)\Sigma=\text{diag}(\lambda_1,\lambda_2,\cdots,\lambda_n) 是一个对角阵,其对角线元素是矩阵 AA 的特征值按降序排列 λ1λ2λn\lambda_1\geqslant\lambda_2\geqslant\cdots\geqslant\lambda_nQ=(u1,u2,,un)Q=(\mathbf u_1,\mathbf u_2,\dots,\mathbf u_n) 是特征值对应的特征向量组成的矩阵。

特征值分解后,方阵的幂变得更容易计算

At=QΣtQ1=Q[λ1tλnt]Q1A^t=Q\Sigma^t Q^{-1}=Q\begin{bmatrix}\lambda_1^t\\&\ddots\\&&\lambda_n^t\end{bmatrix}Q^{-1}

特征值分解可以理解为:先切换基向量,然后伸缩变换,最后再切换回原来的基向量。其中,Σ\Sigma 中的特征向量描述伸缩变换的程度,特征向量描述变换的方向。

特征值分解有一定的局限性,因为它只适用于满秩的方阵。

例:求矩阵 A=[211020413]A=\begin{bmatrix}-2&1&1\\0&2&0\\-4&1&3\end{bmatrix} 的特征值分解。

解:矩阵 AA 的特征多项式为 det(AλI)=(λ2)2(λ+1)\det(A-\lambda I)=-(\lambda-2)^2(\lambda+1) 。特征值和特征向量分别为

λ1=1:u1=[101];λ2=2:u2=[011],u3=[104]\lambda_1=-1:\mathbf u_1=\begin{bmatrix}1\\0\\1\end{bmatrix};\quad \lambda_2=2:\mathbf u_2=\begin{bmatrix}0\\1\\-1\end{bmatrix}, \mathbf u_3=\begin{bmatrix}1\\0\\4\end{bmatrix}

可通过行变换计算逆矩阵

(Q,I)=[011100100010141001][1000100101/31/31/30014/31/31/3]=(I,Q1)(Q,I)=\begin{bmatrix}\begin{array}{ccc:ccc} 0&1&1&1&0&0\\1&0&0&0&1&0\\-1&4&1&0&0&1 \end{array}\end{bmatrix}\to \begin{bmatrix}\begin{array}{ccc:ccc} 1&0&0&0&1&0\\0&1&0&-1/3&1/3&1/3\\0&0&1&4/3&-1/3&-1/3 \end{array}\end{bmatrix}=(I,Q^{-1})

所以

A=[011100141][200020001][0101/31/31/34/31/31/3]A=\begin{bmatrix}0&1&1\\1&0&0\\-1&4&1\end{bmatrix} \begin{bmatrix}2&0&0\\0&2&0\\0&0&-1\end{bmatrix} \begin{bmatrix}0&1&0\\-1/3&1/3&1/3\\4/3&-1/3&-1/3\end{bmatrix}

奇异值分解

奇异值分解

奇异值分解(Singular Value Decomposition, SVD)是线性代数中一种重要的矩阵分解,在生物信息学、信号处理、金融学、统计学等领域有重要应用。

SVD 可以理解为同一线性变换 T:RnRmT:\R^n\mapsto\R^m 在不同基下的矩阵表示。假设 Grant 选用标准基,对应的矩阵为 Am×nA_{m\times n} 。类似于特征值分解, Jennifer 通过选择合适的基向量,对应的矩阵变为简单的长方形对角矩阵 Σm×n\Sigma_{m\times n},即只有伸缩变换。

假定 Jennifer 使用矩阵 Vn=(v1,,vn)V_n=(\mathbf v_1,\cdots,\mathbf v_n) 的列向量作为 RnR^n 的基,使用矩阵 Un=(u1,,um)U_n=(\mathbf u_1,\cdots,\mathbf u_m)的列向量作为 RmR^m 的基 。那么,对于 Jennifer 视角下的向量 xRn\mathbf x\in R^n

  1. 同样的向量,用 Grant 的坐标系表示为 VxV\mathbf x
  2. 用 Grant 的语言描述变换后的向量 AVxAV\mathbf x
  3. 将变换后的结果变回 Jennifer 的坐标系 U1AVxU^{-1}AV\mathbf x

于是,我们得到同一个线性变换 TT 在 Jennifer 的坐标系下对应的矩阵 Σ=U1AV\Sigma=U^{-1}AV ,也可理解为矩阵 AA 分解为 Am×n=UmΣm×nVn1A_{m\times n}=U_m\Sigma_{m\times n}V^{-1}_n

接下来,自然是探讨上述矩阵分解的适用条件。

注意到

ATA=(UΣV1)T(UΣV1)=VTΣTUTUΣV1A^TA=(U\Sigma V^{-1})^T(U\Sigma V^{-1})=V^{-T}\Sigma^TU^TU\Sigma V^{-1}

不妨取 U,VU,V 为单位正交基,即U,VU,V 为正交矩阵 UTU=I,VTV=IU^TU=I,V^TV=I ,则

ATA=VΣTΣVTA^TA=V\Sigma^T\Sigma V^T

于是,可知 VV 的列向量为 ATAA^TA 的特征向量,ΣTΣ\Sigma^T\Sigmann 阶对角阵,其对角元素为ATAA^TA 的特征值。事实上 ATAA^TA 为对称阵,必定存在正交矩阵 VV 相似对角化。

同理

AAT=UΣΣTUTAA^T=U\Sigma\Sigma^T U^T

可知 UU 的列向量为 AATAA^T 的特征向量,ΣΣT\Sigma\Sigma^Tmm 阶对角阵,其对角元素为AATAA^T 的特征值。矩阵 ATAA^TA 为对称阵,必定存在正交矩阵 UU 相似对角化。

目前 U,VU,V 我们都求出来了,只剩下求出长方形对角矩阵 Σ\Sigma 。根据 Sylvester降幂公式, ATAA^TAAATAA^T 有相同的非零特征值。

Σ=[ΛrOOO]\Sigma=\begin{bmatrix}\Lambda_r&O\\O&O\end{bmatrix} ,其中 Λr=diag(σ1,,σr)\Lambda_r=\text{diag}(\sigma_1,\cdots,\sigma_r) 。则

ΣTΣ=[Λr2OOO]n,ΣΣT=[Λr2OOO]m\Sigma^T\Sigma=\begin{bmatrix}\Lambda_r^2&O\\O&O\end{bmatrix}_n,\quad \Sigma\Sigma^T=\begin{bmatrix}\Lambda_r^2&O\\O&O\end{bmatrix}_m

其中 Λr2=diag(σ12,,σr2)\Lambda_r^2=\text{diag}(\sigma_1^2,\cdots,\sigma_r^2) 。因此,矩阵 Σ\Sigma 的对角元素是 ATAA^TAAATAA^T 的特征值 λj\lambda_j 的平方根

σj=λj\sigma_j=\sqrt{\lambda_j}

综上,任意矩阵均可奇异值分解

SVD

定义:SVD是指将秩为 rrm×nm\times n 矩阵AA分解为

A=UΣVTA=U\Sigma V^T

其中 UUmm 阶正交阵, VVnn 阶正交阵,Σ\Sigmam×nm\times n 维长方形对角矩阵,对角元素称为矩阵 AA奇异值,一般按降序排列 σ1σ2σr>0\sigma_1\geqslant\sigma_2\geqslant\cdots\geqslant\sigma_r>0 ,这样 Σ\Sigma 就唯一确定了。矩阵 UU 的列向量称为左奇异向量(left singular vector),矩阵 VV 的列向量称为右奇异向量(right singular vector)。

例:这里我们用一个简单的矩阵来说明奇异值分解的步骤。求矩阵 A=[011110]A=\begin{bmatrix}0&1\\1&1\\1&0\end{bmatrix} 的奇异值分解

解:首先求出对称阵 ATAA^TAAATAA^T

ATA=[011110][011110]=[2112]AAT=[011110][011110]=[110121011]A^TA=\begin{bmatrix}0&1&1\\1&1&0\end{bmatrix} \begin{bmatrix}0&1\\1&1\\1&0\end{bmatrix}= \begin{bmatrix}2&1\\1&2\end{bmatrix} \\ AA^T=\begin{bmatrix}0&1\\1&1\\1&0\end{bmatrix} \begin{bmatrix}0&1&1\\1&1&0\end{bmatrix}= \begin{bmatrix}1&1&0\\1&2&1\\0&1&1\end{bmatrix}

然后求出 ATAA^TA 的特征值和特征向量

λ1=3:v1=[1/21/2];λ2=1:v2=[1/21/2]\lambda_1=3:\mathbf v_1=\begin{bmatrix}1/\sqrt{2}\\1/\sqrt{2}\end{bmatrix};\quad \lambda_2=1:\mathbf v_2=\begin{bmatrix}-1/\sqrt{2}\\1/\sqrt{2}\end{bmatrix}

求出 AATAA^T 的特征值和特征向量

λ1=3:u1=[1/62/61/6];λ2=1:u2=[1/201/2];λ3=0:u3=[1/31/31/3];\lambda_1=3:\mathbf u_1=\begin{bmatrix}1/\sqrt{6}\\2/\sqrt{6}\\1/\sqrt{6}\end{bmatrix};\quad \lambda_2=1:\mathbf u_2=\begin{bmatrix}1/\sqrt{2}\\0\\-1/\sqrt{2}\end{bmatrix};\quad \lambda_3=0:\mathbf u_3=\begin{bmatrix}1/\sqrt{3}\\-1/\sqrt{3}\\1/\sqrt{3}\end{bmatrix};

其次可以利用 σi=λi\sigma_i=\sqrt{\lambda_i} 求出奇异值 3,1\sqrt{3},1

最终得到AA的奇异值分解

A=UΣVT=[1/61/21/32/601/31/61/21/3][300100][1/21/21/21/2]A=U\Sigma V^T=\begin{bmatrix}1/\sqrt{6}&1/\sqrt{2}&1/\sqrt{3}\\2/\sqrt{6}&0&-1/\sqrt{3}\\1/\sqrt{6}&-1/\sqrt{2}&1/\sqrt{3}\end{bmatrix} \begin{bmatrix}\sqrt{3}&0\\0&1\\0&0\end{bmatrix} \begin{bmatrix}1/\sqrt{2}&1/\sqrt{2}\\-1/\sqrt{2}&1/\sqrt{2}\end{bmatrix}

矩阵的基本子空间

设矩阵 A=UΣVTA=U\Sigma V^T ,有rr 个不为零的奇异值,则可以得到矩阵 AA 的四个基本子空间:

  1. 正交阵 UU 的前 rr 列是 col A\text{col }A 的一组单位正交基
  2. 正交阵 UU 的后 mrm-r 列是 kerAT\ker A^T 的一组单位正交基
  3. 正交阵 VV 的前 rr 列是 col AT\text{col }A^T 的一组单位正交基
  4. 正交阵 VV 的后 nrn-r 列是 kerA\ker A 的一组单位正交基

A(v1,,vrcol AT,vr+1vnkerA)=(u1,,urcol A,ur+1umkerAT)[σ1σrO]Σm×nA(\underbrace{\mathbf v_1,\cdots,\mathbf v_r}_{\text{col }A^T},\underbrace{\mathbf v_{r+1}\cdots\mathbf v_n}_{\ker A})= (\underbrace{\mathbf u_1,\cdots,\mathbf u_r}_{\text{col }A},\underbrace{\mathbf u_{r+1}\cdots\mathbf u_m}_{\ker A^T}) \underbrace{\begin{bmatrix}\sigma_1\\&\ddots\\&&\sigma_r\\&&&O \end{bmatrix}}_{\Sigma_{m\times n}}

证:易知 AV=UΣAV=U\Sigma ,即

{Avi=σiui,1irAvi=0,r<in\begin{cases} A\mathbf v_i=\sigma_i\mathbf u_i, &1\leqslant i\leqslant r \\ A\mathbf v_i=0, &r< i\leqslant n \end{cases}

v1,,vn\mathbf v_1,\cdots,\mathbf v_nRn\R^n 的单位正交基,对于 xRn\forall\mathbf x\in \R^n ,可以写出 x=c1v1++cnvn\mathbf x=c_1\mathbf v_1+\cdots+c_n\mathbf v_n,于是

Ax=c1Av1++crAvr+cr+1Avr+1++cnvn=c1σ1u1++crσ1ur+0++0\begin{aligned} A\mathbf x&=c_1A\mathbf v_1+\cdots+c_rA\mathbf v_r+c_{r+1}A\mathbf v_{r+1}+\cdots+c_n\mathbf v_n \\ &=c_1\sigma_1\mathbf u_1+\cdots+c_r\sigma_1\mathbf u_r+0+\cdots+0 \end{aligned}

所以 Axspan{u1,,ur}A\mathbf x\in\text{span}\{\mathbf u_1,\cdots,\mathbf u_r\} ,这说明矩阵 UU 的前 rr 列是 col A\text{col }A 的一组单位正交基,因此 rank A=r\text{rank }A=r 。同时可知,对于任意的 xspan{vr+1,,vn}    Ax=0\mathbf x\in\text{span}\{\mathbf v_{r+1},\cdots,\mathbf v_n\}\iff A\mathbf x=0 ,于是 VV 的后 nrn-r 列是 kerA\ker A 的一组单位正交基。

同样通过 ATU=VΣA^TU=V\Sigma 可说明 VV 的前 rr 列是 col AT\text{col }A^T 的一组单位正交基, UU 的后 mrm-r 列是 kerAT\ker A^T 的一组单位正交基。

奇异值分解的性质

设矩阵 A=UΣVTA=U\Sigma V^T ,秩 rank A=r\text{rank }A=r ,分别将 U,Σ,VU,\Sigma,V 进行分块

U=(Ur,Umr)V=(Vr,Vnr)Σ=[ΛrOOO]U=(U_r,U_{m-r}) \\ V=(V_r,V_{n-r}) \\ \Sigma=\begin{bmatrix}\Lambda_r&O\\O&O\end{bmatrix}

其中 Ur=(u1,,ur)U_r=(\mathbf u_1,\cdots,\mathbf u_r)m×rm\times r维矩阵, Vr=(v1,,vr)V_r=(\mathbf v_1,\cdots,\mathbf v_r)n×rn\times r维矩阵,Λr=diag(σ1,,σr)\Lambda_r=\text{diag}(\sigma_1,\cdots,\sigma_r)rr 阶对角阵。应用矩阵乘法的性质,奇异值分解可以简化为

A=UrΛrVrTA=U_r\Lambda_r V^T_r

这个分解称为简化奇异值分解

性质

  1. 奇异值分解可理解为将线性变换分解为三个简单的变换:正交变换 VTV^T,伸缩变换 Σ\Sigma 和正交变换 UU

  2. 矩阵 AA 的奇异值分解中,奇异值是唯一的,但矩阵 U,VU,V 不是唯一的。

  3. λ\lambdaATAA^TA 的一个特征值,v\mathbf v 是对应的特征向量,则

    Av2=vTATAv=λvTv=λv\|A\mathbf v\|^2=\mathbf v^TA^TA\mathbf v=\lambda\mathbf v^T\mathbf v=\lambda\|\mathbf v\|

  4. 易知 AV=UΣAV=U\SigmaATU=VΣTA^TU=V\Sigma^T,则左奇异向量和右奇异向量存在关系

    Avj=σjujATuj=σjvjA\mathbf v_j=\sigma_j\mathbf u_j \\ A^T\mathbf u_j=\sigma_j\mathbf v_j

矩阵的外积展开式

矩阵 A=UΣVTA=U\Sigma V^T 可展开为若干个秩为1的 m×nm\times n矩阵之和

A=σ1u1v1T+σ2u2v2T++σrurvrTA=\sigma_1\mathbf u_1\mathbf v_1^T+\sigma_2\mathbf u_2\mathbf v_2^T+\cdots+\sigma_r\mathbf u_r\mathbf v_r^T

上式称为矩阵 AA 的外积展开式。

在长方形对角矩阵 Σ\Sigma 中奇异值按从大到小的顺序排列 σ1σ2σr>0\sigma_1\geqslant\sigma_2\geqslant\cdots\geqslant\sigma_r>0 。在很多情况下,由于奇异值递减很快,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上。因此,我们可以用前面 kk 个大的奇异值来近似描述矩阵。

奇异值分解也是一种矩阵近似的方法,这个近似是在矩阵范数意义下的近似。矩阵范数是向量范数的直接推广。

A2=(j=1ni=1maij2)1/2\|A\|_2=(\sum_{j=1}^{n}\sum_{i=1}^{m} |a_{ij}|^2)^{1/2}

可以证明

A22=tr(ATA)=i=1rσi2\|A\|_2^2=\text{tr}(A^TA)= \sum_{i=1}^{r} \sigma_i^2

设矩阵

Ak=i=1kσiuiviTA_k=\sum_{i=1}^k\sigma_i\mathbf u_i\mathbf v_i^T

AkA_k 的秩为 kk ,矩阵 AkA_k 称为 AA截断奇异值分解。并且 AkA_k 是秩为 kk 时的最优近似,即 AkA_k 为以下最优问题的解

minAX2s.t. rank A=k\min\|A-X\|_2 \\ \text{s.t. rank }A=k

上式称为低秩近似(low-rank approximation)。于是奇异值分解可近似为

Ai=1kσiuiviT=Um×kΣk×kVn×kTA\approx \sum_{i=1}^k\sigma_i\mathbf u_i\mathbf v_i^T=U_{m\times k}\Sigma_{k\times k}V_{n\times k}^T

其中 kk 是一个远远小于mmnn的数,从计算机内存的角度来说,矩阵左(右)奇异向量和奇异值的存储要远远小于矩阵AA的。所以,截断奇异值分解就是在计算精度和时间空间之间做选择。如果kk越大,右边的三个矩阵相乘的结果越接近于AA

截断奇异值分解常用于图像压缩,如下图

复数矩阵

矩阵 AA 的元素 aijCa_{ij}\in\Complex ,称为复矩阵。现将实数矩阵的一些概念推广到复数矩阵,相应的一些性质在复数矩阵同样适用。

定义:设复矩阵 A=(aij)m×nA=(a_{ij})_{m\times n}

  1. 矩阵 Aˉ=(aij)\bar A=(\overline{a_{ij}}) 称为矩阵 AA 的共轭矩阵.
  2. 矩阵 AH=AˉTA^H=\bar A^T 称为矩阵 AA 的共轭转置,又叫Hermite转置。
  3. AH=AA^H=A,则称 AA 为 Hermitian 矩阵,是实数域对称阵的推广。
  4. AHA=AAH=IA^HA=AA^H=I,即 A1=AHA^{-1}=A^H ,则称 AA 为酉矩阵(unitary matrix),是实数域正交阵的推广。
  5. 复向量长度 z2=z12+z12++zn2\|\mathbf z\|^2=|z_1|^2+|z_1|^2+\cdots+|z_n|^2
  6. 内积 uHv=uˉ1v1+uˉ2v2++uˉnvn\mathbf u^H\mathbf v=\bar u_1v_1+\bar u_2v_2+\cdots+\bar u_nv_n
  7. 正交 uHv=0\mathbf u^H\mathbf v=0

性质

  • A+B=A+B\overline{A+B}=\overline A+\overline B
  • kA=kˉAˉ\overline{kA}=\bar k \bar A
  • AB=AˉBˉ\overline{AB}=\bar A\bar B
  • (AB)H=BHAH(AB)^H=B^HA^H
  • 一般 uHvvHu\mathbf u^H\mathbf v\neq \mathbf v^H\mathbf u
  • Hermitian 矩阵可正交对角化 A=PΛP1=PΛPHA=P\Lambda P^{-1}=P\Lambda P^H
  • Hermitian 矩阵的每个特征值都是实数

附录

极大线性无关组

由向量组线性相关的定义,容易得到以下结论:

(1) 向量组线性相关    \iff向量组中存在向量能被其余向量线性表示。
(2) 向量组线性无关    \iff向量组中任意一个向量都不能由其余向量线性表示。

线性等价:给定两个向量组

a1,a2,,arb1,b2,,bs\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r \\ \mathbf b_1,\mathbf b_2,\cdots,\mathbf b_s

如果其中的每个向量都能被另一个向量组线性表示,则两个向量组线性等价

例如,向量组 a,b,a+b\mathbf a,\mathbf b,\mathbf a+\mathbf b 与向量组 a,b\mathbf a,\mathbf b 线性等价。

极大线性无关组:从向量组 AA 中取rr 个向量组成部分向量组 a1,a2,,ar\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r ,若满足

(1) 部分向量组 a1,a2,,ar\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r 线性无关
(2) 从AA 中任取r+1r+1个向量组成的向量组 都线性相关。

则称向量组 a1,a2,,ar\mathbf a_1,\mathbf a_2,\cdots,\mathbf a_r极大线性无关组(maximum linearly independent group)。极大线性无关组包含的向量个数为向量组的秩。

性质

(1) 一个向量组的极大线性无关组不一定是惟一的;
(2) 一个向量组与它的极大线性无关组是等价的;
(3) 一个向量组的任意两个极大线性无关组中包含的向量个数相同,称为向量组的(rank)。全由零向量组成的向量组的秩为零;
(4) 两个线性等价的向量组的秩相等;
(5) 两个等价的向量组生成的向量空间相同。

向量叉积

平面叉积

[v1v2]×[w1w2]=det[v1w1v2w2]\begin{bmatrix}v_1\\v_2\end{bmatrix}\times\begin{bmatrix}w_1\\w_2\end{bmatrix}=\det\begin{bmatrix}v_1 & w_1\\ v_2 & w_2 \end{bmatrix}

大小等于 v,wv,w 围成的平行四边形的面积

三维叉积

[v1v2v3]×[w1w2w3]=det[iv1w1jv2w2kv3w3]\begin{bmatrix}v_1\\v_2\\v_3\end{bmatrix}\times\begin{bmatrix}w_1\\w_2\\w_3\end{bmatrix}=\det\begin{bmatrix}\mathbf i & v_1 & w_1\\\mathbf j & v_2 & w_2 \\\mathbf k & v_3 & w_3 \end{bmatrix}

大小等于 v,wv,w 围成的平行六面体的体积,方向遵循右手定则。